본문 바로가기

2019년 혁신성장 청년인재 집중양성(빅데이터)/통계 시발점(욕이 아니라 시작의 의미로)

[Intuitive Biostatistics] 계수자료의 신뢰구간(포아송 분포)

0. 사건들이 서로 독립적으로 무작위로 발생하면서 시간에 따른 발생률이 변하지 않는다면 특정 시간 동안 발생한 사건의 수는 포아송분포를 따르게 된다. 실제 관찰된 발생 사건으로부터 신뢰구간은 단위시간당 발생하는 사건의 수로 계산될 수 있다. 또한 포아송분포는 특정 부피에 포함되는 물체의 평균 개수의 신뢰구간을 계산할 때도 사용된다.

 

A. 포아송분포

 

1. 어떤 결과는 특정 부피에 포함된 사물의 수나 특정 시간 도안 일어난 사건의 수로 표현된다. 예를 들어, 한 산부인과 병동에서 매일 태어나는 신생아 수나, 한 ㅎ현미경 시야에서 보이는 호산구 수 등이 있다.

 

2. 시간이나 특정 부피 안의 사물을 반복적으로 추출하면 사건 혹은 사물의 수는 매번 달라지리라는 것은 쉽게 예상할 수 있다. 이런 무작위분포는 포아송분포라고 하는데 특정 인구집단의 한 단위시간 또는 공간의 평균 발생수가 주어진다면, 포아송 분포를 통해 사건이나 사물을 얼마나 자주 관찰할 수 있을 지 예상할 수 있다.

 

B. 가정 : 포아송분포

 

1. 사건 계산은 다음의 가정을 바탕으로 한다.

 

- 사건이 명확하게 정의된다.

- 각 사건은 무작위로 일어나는데, 다른 사건들과 서로 독립적이다. 

- 평균발생률은 시간에 따라 변하지 않는다.

- 각 사건은 한 번만 계수 되어야 한다. 

 

2. 대상수에 대한 가정은 아래를 바탕으로 한다.

 

- 대상은 무작위로 분산되어 있다.

- 각 대상은 한 번만 계수된다.

- 계수할 대상을 제대로 정의해야 한다. 무엇을 세고 무엇을 셎 말아야 하는지에 대한 불확실성은 없어야 한다.

 

C. 포아송분포에 기초한 신뢰구간

 

1. 포아송분포는 신뢰구간을 계산할 때 사용된다. 특정 부피에 있는 대상의 실제 수를 셀 때, 그 부피 안에 있는 대상의 평균숫자에 대한 신뢰구간 계산은 가능하다.

 

D. 포아송분포를 이용하여 신뢰구간을 구하는 방법

 

1. C(관찰수) -1.96√C< CI < C(관찰수) +1.96√C 

* C가 크면 포아송분포는 근사적으로 가우스분포를 따른다.

 

E. 긴 시간구간 동안 계수할 때의 장점

 

1. 포아송변수에 대해 CI를 계산할 때, 실제 계수된 대상이나 사건의 수를 이용하여 계산하는 것이 핵심이다. 

 

2. 1분 동안 800번의 방사선붕괴를 센다면, 1분 동안의 평균 붕괴수의 95% CI는 650 to 754

3. 10분 동안 7,000번의 방사선 붕괴를 계수했다면, 10분당 평균 방사선붕괴수의 95% CI는 6383 to 7166

3-2. 이를 10으로 나누면 분당 평균 붕괴수는 684 to 718, 즉 긴 시간동안 계수하면 평균 발생수를 더 정확하게 계산할 수 있고 CI는 더 좁아진다.

 

 

 

**이항분포와 포아송분포 모두 계수된 결과를 분석할 때 사용한다. 하지만 둘은 매우 다르다. 이항분포는 2가지 가능한 결과의 분포에 대해 설명한다. 포아송분포는 특정 시간/부피에 발생하거나 담길 수 있는 사건과 대상이라는 숫자에 대해 설명할 수 있다.