0. 오늘 스터디에서는 통계학의 기본적인 내용인 점추정과 구간추정에 관한 이야기를 나누었다. 알고 있다고 생각되는 내용에도 허점이 많음을 느꼈다.
추정량의 조건
1. 불편성(Unbiasedness)
탁월한 추정량은 추정량의 평균이 추정모수와 일치해야한다. 당연한 소리다. 이는 표본을 제대로 뽑아 실험했으면 반드시 만족하는 성질이다.
2. 효율성(Efficiency)
불편추정량은 여러 개일 수 있다. 하지만 그 중에서도 효율적인 불편추정량은 분산이 적은 추정량이다.
3. 일치성(Consistency)
표본크기가 무한히 증가할 때, 추정량은 모수에 근접하려는 특성을 지닌다.
4. 충분성((Sufficiency)
추정량은 모수에 관한 모든 정보를 포함해야 한다.
점추정과 구간추정
1. 분포라는 가정
만일 주목하고 있는 불확실한 현상이 정균분포라고 간주한다면, 정규분포의 성질을 이용하여 추정을 할 수 있다. 왜냐하면, 정균분포가 의미하는 것은 데이터가 “몰리는”구간이 있다는 것을 의미하기 때문이다.
정규분포이든 어떤 분포이든 가정할 수 없다면 추정은 불가능하다. 경험에 의해서 축적된 어떤 현상에 대한 가정, 이 현성도 그러한 분포를 가질 것이라는 것에 대한 실험적 믿음을 바탕으로 우리는 추정을 할 수 있게된다.
2. 효율적인 추정, 분포라는 가설로 부터 발생되는 "불신"
그렇기 때문에, 정확한 추정을 하기 위해서는, 이 몰리는 구간, 당연히 나타날 가능성이 큰 수를 말하는 것이 옳은 전략이 된다. 이는 표준정규분포에서 0에 가까운 값을 말하는 것이 더 맞추기 쉬운 것 과 같다.
이 정규분포의 가정은 불확실한 현상인 모집단의 특성인 모수를 좁은 구간에서 추정할 수 있게 해준다. 추정이 완벽하지 않다는 허점을 이용하여 상당히 좁은 구간에서 예언을 가능하게 하는 것이다. 그리고 그 예언은 실패할 수 있음을 담보한다.
3. 통계량이 가정된 분포에서 차지하는 구간은 신뢰수준이 된다. 이 신뢰수준 안의 추정량은 신뢰구간이 된다.
모수를 추정할 때, 어디까지 타당한 수치로 허용할 수 있을까에 대한 질문의 답이 가설검정이다. 우리는 통계량의 분포를 가정할 수 있고, 그 통계량이라는 현상의 대부분이 어느 값을 갖는지 구간을 알 수 있다.
95%, 99% 구간의 통계량의 구간에 대해 알 수 있고, 통계량을 구성하고 있는 모수를 이용하여 가설검정한다. 이 구간 안에 있는 모수만이 기무가설을 통과하는 것이다.
즉 이 수치 안에서 허용되는 숫자들의 구간이 신뢰구간이 되며, 가설검정에 이용된 통계량의 신뢰구간이 신뢰수준이 된다.
그렇기 때문에 95%의 신뢰수준이 의미하는 바는, 95%의 확률로 그 구간안에 있음을 말하는 것이 아니라, 그 구간 안에 있는 모든 추정량은 100번 관찰할 때 95번은 관찰된다는 말이 된다.
1. 히스토그램 역시 계급과 계급값의 형태로 값이 구분이 되어 있는 형태다. 이 때, 정규분포 하는 어떤 현상의 모수의 정의역을 구간이 아닌, 실수에 대응시킨다면 위의 히스토그램은 정규분포가 될 것이다. 이 떄, 파란색을 표시된 것과 같은 넓이가 그 모수구간이 차지하는 확률이 된다.
2. 점추정은 이때, 하나의 직선이기 때문에 넓이를 가질 수 없다. 즉 0에 수렴하게 되고 구간 추정은 여러 직선이 모여진 형태로 넓이를 계산할 수 있게 된다. 즉 점추정을 할 경우 확률은 0에 수렴하지만, 구간 추정을 할 경우 넓이라는 확률을 가질 수 있게 된다. 이 넓이를 95%까지 올렸을 때, 구간 추정은 95%의 예언력을 가지며, 이 95%의 속하는 통계량의 구간을 가지고 모수를 가설검정했을 때, 우리는 95%의 신뢰수준을 가진 모수를 구간추정할 수 있게 된다.
마치며
일상생활의 대부분의 추정은 점추정이다. 그리고 그 점추정은 문화에 따라서 구간추정으로서 받아들여진다. 대표적인 점 추정은 무당이다. 무당은 점추정한다. 아니면 말고 하는 식으로 말이다. 하지만 인간은 편향적인 존재다. 무당이 합리적인 구간추정보다 점추정을 선택한 점은 탁월하다. 왜냐하면 무당에게 가는 사람은 이미 어떤 답을 점추정으로 가지고 있는 사람이기 때문에 말이다. 또한 틀린 것보다는 맞은 것이 더 집중되는 것이 인간의 뇌이기 때문이다.
'2019년 혁신성장 청년인재 집중양성(빅데이터) > 통계 시발점(욕이 아니라 시작의 의미로)' 카테고리의 다른 글
[Intuitive Biostatistics] 확률의 복잡성 (0) | 2019.10.28 |
---|---|
[통계학 스터디] 20191019 가우스 분포, 중심극한정리, 모수와 통계량, 표준오차, 변동계수 (0) | 2019.10.22 |
[Intuitive Biostatistics] CHAPTER 1 통계학과 확률은 직관적으로 이해하기는 어렵다. (0) | 2019.10.07 |
[통게학 스터디] 확신 오차 불확도 자유도 T통계량 F통계량 (0) | 2019.10.06 |
세상에서 가장 쉬운 베이즈통계학 입문 정리 pdf. (0) | 2019.09.22 |