본문 바로가기

2019년 혁신성장 청년인재 집중양성(빅데이터)/통계 시발점(욕이 아니라 시작의 의미로)

[Intuitive Biostatistics] 비율의 신뢰구간

A. 비율로 표현되는 자료

 

1.   심근경색을 경험한 환자 중 심주전까지 진행하는 비율, 특정 과목을 이수하는 학생의 비율, 동전던지기에서 앞면이 나오는 비율 등이 있다.

 

B. 이항분포 : 집단에서 표본으로

 

1. 동전던지기를 공정하게 시행할 경우 앞면과 뒷면이 나올 확률은 각각 50%다. 동전던지기를 계속 한다면 결국 앞면이 나오는 만큼 뒷면이 나온다는 의미다.  하지만 연속된 상황에서, 앞면만 나오거나 뒷면만 나올 수도 있다.

 

2. 전체 모집단에서 사건이 일어날 비율을 알면, 이항분포를 사용하여 특정결과를 관찰할 우도를 계산할 수 있다.

 

p를 동전의 앞면이 나올 확률, n을 총 시행 횟수라고 할때,  앞면 x번이 나올 확률의 분포이다.

 

 

C. 신뢰구간 : 표본에서 비율로

 

1. 표본수가 더 많은 모집단에서 자료를 수집할 경우, 미숙아의 생존률은 변할 것이다. 그렇다면 표본을 통한 생존률과 실제 모집단의 생존률은 얼마나 차이가 날까?

 

2.실제 값이 포함될 범위임을 95% 정도 확신할 수 있는 구간을 만들어 보자. 그와 같은 범위를 신뢰구간(confidence interval), 약어로 CI라고 한다.

 

 

 

D. 예제: 유권자 설문조사

 

1. 선거 직전 무작위로 선정된 유권자 100명을 대상으로 설문조사를 했다. 그중 33명이 당신의 후보를 선택했다. 전체 유권자 중 당신의 후보를 선택할 유권자의 비율은 얼마나 될까?

 

2. 이 때 2가지 주제를 고민해 보아야 한다. 첫 째, 수집된 표본이 실제 유권자 전체 모집단을 대표하는지, 둘 째, 설문조사에 응한 참여자가 거짓 없이 대답을 했는지 여부다. 하지만 통계계싼은 이 두문제를 해결할 수 없다. 

 

3. 또한 표집오차를 생각행 한다. 정말 우연하게도 수집된 100명 중 당신 후보를 선택할 사람이 전체 유권자집단보다 매우 거나 많은 비율로 포함될 수 있다. 

 

4. 우리가 알고 있는 유일한 사실은, 하나의 표본에서 내 후보에 투표할 유권자의 비율이다. 따라서 전체 모집단 비율에 대해 확실히 알 수 있는 다른 방법은 없다. 이 경우 최선의 방법은 실제 모집단의 비율을 포함하는 범위를 추정하는 것이다.

 

 

E. 가정 비율의 신뢰구간

 

1. 모든 통계의 결론은 분석대상 자료가 일반적인 결론을 얻고자 하는 대상인 전체 모집단에서 추출되었다는 가정을 바탕으로 한다. 

 

2. 95% 신뢰구간은 모든 관측값이 같은 모집단에서 서로 독립적으로 추출되었을 때 유효하다.

 

3. 정해진 기준에 따라 분류된 대상의 수가 정확해야 의미 있는 95% 신뢰구간을 구할 수 있다. 

 

F. 95% 신뢰구간이 지닌 실제 의미

 

1. 실제 모비단의 참값은 95% 신뢰구간에 포함될 수도, 그렇지 않을 수도 있다. 이를 알 방법은 없다. 여러 개의 표본에서 95% 신뢰구간을 구하면, 약 95%의 표본의 신뢰구간이 모집단 참값을 포함하고, 5%는 포함하지 않을 것이라고 예상할 수 있다.

 

 

 

20개의 막대는 하나의 모의실험을 나타낸다. 각 모의실험마다 복원추출을 15회 반복하였다. 유리병에는 빨간 공이 25% 검은 공이 75% 있으며, 빨간 공이 뽑힐 확률의 CI를 계산하였다. 빨간 공이 나온 비율은 막대 중간에 수평선으로 표시하였다. 각 막대는 각 실험의 95% 신뢰한계의 하한부터 상한까지 분포한다. 하나의 막대를 제외한 모든 막대가 실제 모집단의 빨간 공 비율 0.25를 포함하고 있다. 9번째 표본은 실제 모집단의 값을 포함하지 않는다. 전체 20회 실험 중 5%의 실험에서 이런 일이 발생할 수 있다. 

 

2. 신뢰구간이 모집단의 참값을 포함할 확률은 95%이다. 이를 뒤집어 모집단 값이 계싼된 신뢰구간 안에 위치할 가능성을 9%로 본다면 오산이다. 둘은 전혀 같은 이야기가 아니다. 

 

3. 아무리 시행을 반복한다고 하여도, 실제 모집단의 참값은 변하지 않을 것이다. 따라서 95%의 신뢰구간이 의미하는 바는, "이 95% 신뢰구간이 실제 모집단의 값을 포함할 확률이 95%다."

 

4. 95%의 숫자는 관행일 뿐이다.

 

 

G. 용어

 

1. 신뢰구간(confidence intervals)의 양끝은 신뢰한계(Confidence limits)다. 신뢰구간은 하나의 신뢰 한계로부터 다른 신뢰한계까지의 구간이다.

 

2. 표본비율은 실제 모집단의 비율의 점추정치(point estimate)라 불린다. 신뢰구간의 값은 구간을 나타내므로 구간추정치라 불린다. 

 

3. 신뢰구간은 신뢰수준을 갖는다. 신뢰수준은 측정자가 원하는 확신의 정도를 의미한다.

 

 

H. 비율의 신뢰구간 계산하기

 

1. 신뢰구간은 몇 가지 방법으로 계산이 가능하다.

 

- 정확성방법은 항상 95%의 신뢰수준을 갖지만 신뢰구간은 필요로 하는 값보다 조금 넓어진다. 

 

- 표준왈드방법은 손으로 쉽게 계산할 수 있는 방법이다. 하지만 변형왈드방법이 그 정확도가 더 높다.

 

-변형왈드방법은 매우 정확하고 손으로 계산하기 쉽다.

 

 

 

2. 변형왈드방법에 의해서 근사적으로 신뢰구간을 구할 수 있다. 비율 또는 사건의 발생 횟수에 따라서 다양하게 근사 신뢰구간을 구할 수 있다. 책을 참조하자. 38p

 

 

 

I. 흔한 실수 : 비율의 신뢰구간

 

1. 신뢰구간의 길이는 표본의 크기에 따라 달라진다. 비율을 백분율로 표기시에, 100을 표본수로 잘못 기재하는 실수릏 하기 쉽다.

 

2. 사건이 이항분포할 때에만, 따라서 결과가 하나의 특정 결곽가 일어나는 횟수로 나타난다. 그리고 이 값은 종종 백분율로 표기 된다. 하지만 체중의 백분율과 같은 연속적 사건의 변화 비율에 이와 같은 신뢰구간 산정을 적용할 수는 없다.