본문 바로가기

2019년 혁신성장 청년인재 집중양성(빅데이터)/통계 시발점(욕이 아니라 시작의 의미로)

[Intuitive Biostatistics] 표본에서 모집단으로

A. 모집단으로부터 표본 얻기

 

1. 표본과 모집단을 명확하게 구분하는 것은 통계학을 이해하는 열쇠다. 또 통계학을 배울 때는 통계용어의 특별한 의미를 일상어의 그것과 구분지을 수 있어야 한다.

 

- 질 관리 : 공장에서 많은 물건이 생산된다(모집단). 모집단에서 무작위로 선택한 몇몇 물거만을 검사한다(표본). 표본에서 얻은 결과로 모집단에 대해 추론하게 된다.

 

- 선거 여론조사 : 유권자의 무작의표본은 유권자 전체 모집단에 대한 결론을 얻는데 사용된다.

 

- 임상 시험 : 한 연구에 포함된 연구대상으로부터 얻은 결과는 환자 모집단에서 미래에 발생할 수 있는 일을 예측하는데 유용하게 쓰일 수 있다.

 

- 실험실 실험 : 실허밀에서 얻는 자료는 표본이다. 표본자료로부터 이상적이고 진실에 가까운 상황에 대해 믿을 만한 추론을 하게 된다. 

 

 

B. 표본오차와 편향

 

1. 대부분의 통계는 분석대상인 자료가 큰 모집단에서 무작위추출되었다는 가정에 기반한다. 따라서 표본으로부터 계산한 값은 집단의 참값의 추정값으로 간주한다.

 

- 임의표집오차 : 단순히 우연에 의해 당시닝 뽑은 표본이 실제 모집단의 평균보다 크거나 작은 값을 가질 수 있다.

 

- 선택편향 : 표본으로부터 계싼된 값과 모집단의 참값의 차이는 무작위표본에 의해 설명되는 값보다 더 차이가 날 수 있다. 

 

- 다른 형태의 변향 : 실험방법이 불완전할 수도 있고, 계통적으로 매우 크거나 작은 결과를 만들어 낼 수 있다.

 

 

C. 모형과 모수

 

1. 모형은 세상을 단순화시켜 기술하는 수학적인 방버이다. 모형은 일반적인 설명과 함께 특정한 값을 갖는 모수로 이루어진다. 예를 들어 어떤 모형은 가우스 종 모양 분포를 하는 온도값을 표현할 수 있다.

 

2. 통계학의 목표 중 하나는 자료를 분석하여 모형을 설명하는 모수의 값을 추정하는 것이다.

 

D. 다층 표본추출

 

1. 한 사람에게서 얻은 하나의 표본자료를 다른 사람에 대한 결론을 얻기 위해 외삽하여 사용할 수는 없다. 

 

2. 이런 종류의 위계적 또는 다층 추출을 다루려면 특별한 방법이 필요하다.

 

 

E. 표본이 전체 집단이라면 어떻게 되는가?

 

1. 어떤 경우 표본이 전체 집단일 수 있거나 혹은 그렇게 보일 수 있다.

 

2. 어떤 경우 수집한 자료에만 관심을 두고 일반적인 결론을 내리는 데는 아무런 괌심이 없을 수 있다. 왜냐하면 통계적 추론이 필요하지 않은 상황이기 때문이다.

 

3. 즉, 자료가 전체 모집단이라면 통계계싼은 더 큰 집단이나 다른 상황 혹은 미래의 상황을 추론할 때만 필요할 것이다.