n 이 표본 크기일 때, n-1을 표본의 자유도 (df; degree of freedom) 이라 한다.
자유도는 Guinness 양조회사에 고용되어 Student 라는 익명으로 t-분포를 발표한 William Gosset 에 의해 발견되었다. Gosset은 t-distribution의 모양이 sample size에서 1을 뺀 값, 즉 자유도에 따라 변하는 것을 보여주었다.
Gosset 은 작은 sample 의 표본은 정규분포를 따르지 않으므로, 표준편차의 계산에 있어서 error 가 발생하는 것을 발견하고, 이에 대한 correction factor 로서, 자유도 (degree of freedom)을 제시하였다. 우리가 sample 의 분산을 결정하기 위해서는 한 member 의 freedom 의 손실이 발생한다. 남아있는 (n-1) 의 member 들은 자유롭게 변할 수 있는 총 수를 대표하므로, t-distribution 에 있어서, 이를 자유도라 한다.
이것을 다음과 같이 생각해 볼 수도 있다. 만약 우리가 5개의 sample을 가지고 있고, 각각 score 들의 평균은 100임을 알고 있다고 가정해 보자. 우리가 4개의 score만 알아도(예를 들어, 90, 100, 110, 120), 나머지 하나는 80임을 알 수 있다. 이와 같이, n-1(여기서는 5-1=4) 의 값들은 자유롭게 변할 수 있다. 두 개의 sample 에서는 df = (n1-1) + (n2-1) = n1+n2-2 가 된다.
자유도에 대해서 평소에 알듯 말듯 완벽하게 이해를 못하고 있었었는데... 오늘 누군가의 질문을 받고... 대답을 못하고야 말았습니다. ㅠㅠ ANOVA 에서 분산의 평균, Mean square 구할때, 왜 자유도로 나눠 주는지가 이해가 안되었었는데... 위의 설명을 따르면.. 너무나 명백하군요. 어떤 것을 완벽하게 예측할 수 있다는 것은 그것이 자유로이 변할 수 있는 자유도가 하나 손실되는 거니까... n 으로 나눠 주면 안되고, n-1 로 나눠 줘야 하는 것이었군요. 왜 이걸 제대로 설명해 주는 사람들이 없었을까? ㅠㅠ
자유도가 하나 손실되는 거라기 보다도, 애초에 n개의 변수로 이루어진 식의 값을 알고 있을 때 독립변수의 개수가 n-1개라는 것이죵~
사실 자유도는 통계학에서만 나오는 개념은 아니죠. 물리학에서도 나옵니다. (입자의 운동)
{{|
움직이는 것은 좌표가 있다.
좌표는 자유도이고,
자유도는 양자수를 낳는다.
양자수는 상태를 지정한다. - 교수님 말씀
|}}
{{|
움직이는 것은 좌표가 있다.
좌표는 자유도이고,
자유도는 양자수를 낳는다.
양자수는 상태를 지정한다. - 교수님 말씀
|}}
헉. 이해가 안 돼요. 좀 자세히 설명해 주세요.
물리에서 자유도라는 것은 차원과 매우 비슷한 개념입니다. 물리란 물질에 대한 학문으로 이 세상에 '존재'하는 것들에 대해서 수학적으로 명확하게 기술하는 것이 목적이라고 할 수 있습니다. 즉, 어떤 존재하는 물질을 설명하기 위해 필요한 최소한의 정보의 개수가 곧 자유도라고 할 수 있습니다.