본문 바로가기

통계 시발점(욕이 아니라 시작의 의미로)

[통게학 스터디] 확신 오차 불확도 자유도 T통계량 F통계량

1. 확신할 수 있는 것은(Confidence)

 

내가 통계학 스터디에 참여하면서 한 가지 드는 확신은, 내가 무엇을 모르고 있는지 알 수 있겠다는 확신 뿐이다. 

 

2. 오차(Error)와 불확도(Uncertainity)

 

추정값에 대해 정확히 알고 있을 때, 즉 참값을 알고 그것에 대해 추정했을 때만 "오류"라는 용어를 쓸 수 있고, 추정값의 참값을 모를 때에는 불확도(Uncertainty)를 사용해야 한다. 두 단어의 철학은 다르다.

 

3. 자유도(Degree of Freedom)

 

표 안의 각 a~f 값들은 얼마나 자유로울까? 각 값들은 서로 연관되어 있기 때문에 하나의 값이 정해지면, 다른 값들이 선택될 수 있는 자유도가 떨어지게 된다. 위의 예에서는 2개의 값이 결정되면 나머지 모든 값이 결정되기 때문에 자유도는 2가 된다.

 

 

4. T통계량(T statistics)

 

 

T통계량이 만들어진 배경에는 Student T라는 맥주회사의 QC가 있었다. 그는 가자 적은 비용으로 전체의 맥주 맛을 알기 위해서, 가장 적은 표본으로 전체 맥주의 맛을 알고 싶었고, T분포를 통해 그것을 해결했다.

T통계량은 표본의 표본평균, 표본문산, 표본의 표준편차를 가지고 모집단의 모평균을 추정할 수 있게 되는데, 이때 만들어지는 T통계량은 T분포를 하게 되고, 약간의 수식적인 처리(좌우로 정렬)를 거치게 되면 모평균을 일정 신뢰수준에서 일정 범위에 있다는 것을 알 수 있다.

 

이때, 꼭 신뢰구간은 95%로 설정하는 것은 아니다. 이 숫자는 해당 통계가 필요한 곳의 서비스품질을 어떻게 결정할 것인지에 따라 다르다. 그렇기 때문에, 받아들여질 수 있는 서비스의 품질 폭(interval)과, 표본 검사 비용등을 고려하여 적절한 신뢰수준을 택하게 된다.

 

5. F통계량

 

F통계량에 대해 설명하시면서 T통계량과 비교를 해주셨는데, T는 2개의 값을 비교하고 F는 3개 이상의 값을 비교한다고 하셨다. 아직까지 잘 이해는 가지 않는다. T는 표본을 가지고 모집단의 모수를 추정하는 것인데, 여기서는 비교할 것이 없기 때문이다. 

 

F통계는 3가지 이상의 표본집단이 얼마나 동질성이 있는지를 검사하는 것이라고 한다. 예를 들어 A,B,C 집단의 통계량을 비교하여서 각 집단을 같은 집단으로 볼 수 있는지를 비교하는 것이다. 내가 생각하기에는, 적절한 비유가 아니라고 생각되긴 하지만, 내가 모르는 무엇인가 있는 것일까? F통계가 3개인 것은 어찌 보면 당연한 것 아닌가? 또한 둘을 가지고 비교한다고 하더라도, F통계와 T통계는 다른 것 같은데... 다음주에 질문을 해보아야 겠다.