본문 바로가기

통계 시발점(욕이 아니라 시작의 의미로)

[Intuitive Biostatistics] 연속자료를 그래프로 그리기

더보기

당신이 이야기하는 바를 측정한 후 숫자로 표현하면, 그것ㅇ 대해 무엇인가 알게 된다. 하지만 말고하자 하는 바를 측정할 수도 숫자로 표현할 수도 없다면, 당신의 지식은 형편없고 불만족스로운 것이다.

 

Lord Kelvin

 

 

A. 연속자료

 

1. 자료를 분석할 때의 핵심은 취급자료의 특성에 맞는 분석법을 선택하는 일이다.

 

B. 평균과 중앙값

 

1. 평균은 자료의 중앙이나 중심 경향성(central tendency)를 정렬화하는 한 방법으로, 유일한 방법은 아니다.

 

2. 중앙값은 가운데 값이다. 자료를 가장 작은 값부터 가장 큰 값까지 순위를 매긴 후 가운데 순위를 알아낸다. 자료가 자수일 경우 가운데 두 값의 평균을 낸다. 

 

3. 기하평균은 모든 값을 로그로 변환한 후 이 로그값의 평균을 내는 것이다. 로그값은 0보다 큰 값으로 정의되기 때문에, 값이 0이나 음수인 경우 기하평균은 계산할 수 없다. 

 

4. 조화평균은 각 값을 역수로 변환한 후 역수의 산술평균을 계산하여 그 평균을 다시 역수로 취한 값이다. 

 

5. 절삭평균은 가장 작은 값과 가가장 큰 값을 제외한 나머지 값들의 평균이다. 올림픽 경기에서 아이스스케이팅이 이 방법으로 총점을 매긴다.

 

6. 최빈값은 자료에서 가장 빈번한 값으로 정확도가 최소한 두세 자리 수로 기록되는 연속변수에는 유용하지 않은데, 가각의 값이 특성을 갖기 때문이다. 최빈값은 정수로만 표현되는 변수를 다룰 때 유용하다.

 

 

C. 오차, 편향, 정밀도, 백분위수

 

1. 오차라는 용어는 대개 3가지 종류의 변동을 설명하는 데 쓰인다. error를 통계학에서 오차로 사용하는 것은 일상생활에서 실수란ㄴ 의미로 사용하는 것과 다르다는 것을 명심하자.

 

2. 편향된 측정값은 계통적 오차에 기인한다. 편향은 지속해서 결과를 바꿀수 있는 어떤 요인에 의해서도 발생할 수 있다. 

 

3. 정밀도, 정밀하다는 것은 반복할 수 있는 또는 재현가능한 과 같은 의미를 갖느다. 반복측정결과 매우 유사한 값을 보일 때, 그 방법은 정밀하다 하겠다.  그렇기 때문에, 정확하고 정밀할 수도, 정확하지 않지만 정밀할 수도, 정확하지 않지만 정밀할 수도, 정확하지도 않고 정밀하지도 않을 수 있다.

 

 

4. 백분위수

 

D. 자료의 산포도 또는 분포확인을 위한 그래프 그리기

 

1. 열산포그림은 점그림이라고도 하며, 자료값들이 정확히 어떻게 분포되어 있는지 보여주는 방법이다.

 

2. 자료의 수가 매우 많으면 열산포그림은 겹치는 점이 많아져 다루기 어려워진다. 

 

 

3. 상자수염도를 이요하면 자료의 모든 값을 보지 않고도 자료분포에 대해 이해하기 쉬워진다. 

 

4. 빈도분포 히스토그램을 사용하면 많은 값들의 분포를 볼 수 있다. 

 

 

5. 누적빈도분포

 

 

 

E. 데이터 조작(data massage)에 주의하라

 

1. 불가능한 값을 제외하는 것을 조심하라. 연구자는 불가능한 값을 제거하기 위해 종종 자료를 사전검열하곤 한다. 하지만 명심하라! 불가능한 값을 제하면, 중요한 결과를 볼 수 없게 될지도 모른다. 

 

 

2. 자료보정을 조심하라. 통계검정으로 분석하는 값들은 간혹 직접적인 실험측정값이 아닌 경우가 있다. 어떤 경우 보정이 많이 필요한데, 이런 보정은 결과에 큰 영향을 미칠 수 있다. 

 

3. 자료를 매끄럽게 하는 것을 조심하라. 자료를 매끄럽게 함으로써 많은 정보가 제거될 수 있다.

 

4. 두 측정값의 비인변수들을 조심하라.  종종 가장 조심해야 할 자료는 두 값의 비다. 

 

5. 정규화된 자료를 조심하라. 어떤 과학자는 모든 자료값이 0%에서 100% 사이의 값이 되도록 변환한다. 이런 자료를 볼 때, 0%와 100%를 정의하는 값들을 어떻게 정의이했는지 의문을 품어야 한다. 

 

 

**자료의 분포가 유사하다면 평균과 중위수는 유사해질 것이다. 자료가 오른쪽으로 치우쳐 있다면 중앙값이 평균보다 클 것이고, 자료가 왼쪽으로 치우쳐 있다면 평균이 중앙값보다 클 것이다.