본문 바로가기

통계 시발점(욕이 아니라 시작의 의미로)

(12)
[Intuitive Biostatistics] 변수의 종류 일단 신재하는 사실을 얻어라 그다음 당신이 원하는 대로 그 사실을 변형하라
[Intuitive Biostatistics] 연속자료를 그래프로 그리기 더보기 당신이 이야기하는 바를 측정한 후 숫자로 표현하면, 그것ㅇ 대해 무엇인가 알게 된다. 하지만 말고하자 하는 바를 측정할 수도 숫자로 표현할 수도 없다면, 당신의 지식은 형편없고 불만족스로운 것이다. Lord Kelvin A. 연속자료 1. 자료를 분석할 때의 핵심은 취급자료의 특성에 맞는 분석법을 선택하는 일이다. B. 평균과 중앙값 1. 평균은 자료의 중앙이나 중심 경향성(central tendency)를 정렬화하는 한 방법으로, 유일한 방법은 아니다. 2. 중앙값은 가운데 값이다. 자료를 가장 작은 값부터 가장 큰 값까지 순위를 매긴 후 가운데 순위를 알아낸다. 자료가 자수일 경우 가운데 두 값의 평균을 낸다. 3. 기하평균은 모든 값을 로그로 변환한 후 이 로그값의 평균을 내는 것이다. 로그..
[Intuitive Biostatistics] 계수자료의 신뢰구간(포아송 분포) 0. 사건들이 서로 독립적으로 무작위로 발생하면서 시간에 따른 발생률이 변하지 않는다면 특정 시간 동안 발생한 사건의 수는 포아송분포를 따르게 된다. 실제 관찰된 발생 사건으로부터 신뢰구간은 단위시간당 발생하는 사건의 수로 계산될 수 있다. 또한 포아송분포는 특정 부피에 포함되는 물체의 평균 개수의 신뢰구간을 계산할 때도 사용된다. A. 포아송분포 1. 어떤 결과는 특정 부피에 포함된 사물의 수나 특정 시간 도안 일어난 사건의 수로 표현된다. 예를 들어, 한 산부인과 병동에서 매일 태어나는 신생아 수나, 한 ㅎ현미경 시야에서 보이는 호산구 수 등이 있다. 2. 시간이나 특정 부피 안의 사물을 반복적으로 추출하면 사건 혹은 사물의 수는 매번 달라지리라는 것은 쉽게 예상할 수 있다. 이런 무작위분포는 포아송..
[Intuitive Biostatistics] 비율의 신뢰구간 A. 비율로 표현되는 자료 1. 심근경색을 경험한 환자 중 심주전까지 진행하는 비율, 특정 과목을 이수하는 학생의 비율, 동전던지기에서 앞면이 나오는 비율 등이 있다. B. 이항분포 : 집단에서 표본으로 1. 동전던지기를 공정하게 시행할 경우 앞면과 뒷면이 나올 확률은 각각 50%다. 동전던지기를 계속 한다면 결국 앞면이 나오는 만큼 뒷면이 나온다는 의미다. 하지만 연속된 상황에서, 앞면만 나오거나 뒷면만 나올 수도 있다. 2. 전체 모집단에서 사건이 일어날 비율을 알면, 이항분포를 사용하여 특정결과를 관찰할 우도를 계산할 수 있다. C. 신뢰구간 : 표본에서 비율로 1. 표본수가 더 많은 모집단에서 자료를 수집할 경우, 미숙아의 생존률은 변할 것이다. 그렇다면 표본을 통한 생존률과 실제 모집단의 생존률..
[Intuitive Biostatistics] 표본에서 모집단으로 A. 모집단으로부터 표본 얻기 1. 표본과 모집단을 명확하게 구분하는 것은 통계학을 이해하는 열쇠다. 또 통계학을 배울 때는 통계용어의 특별한 의미를 일상어의 그것과 구분지을 수 있어야 한다. - 질 관리 : 공장에서 많은 물건이 생산된다(모집단). 모집단에서 무작위로 선택한 몇몇 물거만을 검사한다(표본). 표본에서 얻은 결과로 모집단에 대해 추론하게 된다. - 선거 여론조사 : 유권자의 무작의표본은 유권자 전체 모집단에 대한 결론을 얻는데 사용된다. - 임상 시험 : 한 연구에 포함된 연구대상으로부터 얻은 결과는 환자 모집단에서 미래에 발생할 수 있는 일을 예측하는데 유용하게 쓰일 수 있다. - 실험실 실험 : 실허밀에서 얻는 자료는 표본이다. 표본자료로부터 이상적이고 진실에 가까운 상황에 대해 믿을 ..
[Intuitive Biostatistics] 확률의 복잡성 A. 확률의 기초 1. "밖에(out there)"혹은 당신의 머리 밖에(outside your head)에 있는 확률. 장기간 빈도를 의미하는 확률이다. 어떤 특정한 사건이 발생할 확률은 정확한 수치로 표현된다. 하지만 대개의 경우 우리는 사건에 대한 충분한 정보를 얻기 힘드므로, 그 값을 자신할 수 없다. 2. 당신의 머리 안에(inside yout head) 있는 확률. 주관적 믿음의 강도로 표현되는 확률을 말한다. 이는 사람마다 다를 수 있으며, 한 개인에게서도 경우에 따라 차이가 발생하기도 한다. B. 장기간 빈도를 의미하는 확률 1. 모형 한 개에서 얻은 예측으로서의 확률. 모델이 있고, 그 모델에 따른 사건에 대한 예측이다. 모델을 통한 예측이 완벽하지 않더라도 유용할 수는 있다. 2. 자료..
[통계학 스터디] 20191019 가우스 분포, 중심극한정리, 모수와 통계량, 표준오차, 변동계수 0. 수학적 이해와 개념적 납득 모호하던 개념들이 스터디를 진행할수록 조금씩 잡혀간다. 통계를 공부한다는 것은 어쩌면 수학적인 일보다는 언어적인 일에 더 가깝다는 생각이 들었다. 그렇기 때문에, 수학적인 이해보다, 개념적인 납득이 통계로서 세상을 바라보는 도구로 사용하는 것에 더 도움이 되지 않을까 생각했다. 1. 가우스 분포는 분포다 가우스 분포는 정규 분포라는 용어와 동일하다.가우스 분포는 일단 데이터의 분포이다. 가우스분포는 많은 무작위인자가 변이성을 만들 때 발생한다. 무작위인자들은 서로 보상하는 경향이 있고 어떤 요소들은 값을 크게, 또는 작게 만든다. 대게는 서로 효과가 상쇄하기에 많은 값들은 중심 근처에 분포하게 된다. 간혹, 무적위인자 중 극히 일부만이 같은 방향으로 작용하여 그 자료값을 ..
[통계학 스터디] 20191013. 불편성, 효율성, 일치성, 충분성, 점추정, 구간추정 0. 오늘 스터디에서는 통계학의 기본적인 내용인 점추정과 구간추정에 관한 이야기를 나누었다. 알고 있다고 생각되는 내용에도 허점이 많음을 느꼈다. 추정량의 조건 1. 불편성(Unbiasedness) 탁월한 추정량은 추정량의 평균이 추정모수와 일치해야한다. 당연한 소리다. 이는 표본을 제대로 뽑아 실험했으면 반드시 만족하는 성질이다. 2. 효율성(Efficiency) 불편추정량은 여러 개일 수 있다. 하지만 그 중에서도 효율적인 불편추정량은 분산이 적은 추정량이다. 3. 일치성(Consistency) 표본크기가 무한히 증가할 때, 추정량은 모수에 근접하려는 특성을 지닌다. 4. 충분성((Sufficiency) 추정량은 모수에 관한 모든 정보를 포함해야 한다. 점추정과 구간추정 1. 분포라는 가정 만일 주목..