0. 수학적 이해와 개념적 납득
모호하던 개념들이 스터디를 진행할수록 조금씩 잡혀간다. 통계를 공부한다는 것은 어쩌면 수학적인 일보다는 언어적인 일에 더 가깝다는 생각이 들었다. 그렇기 때문에, 수학적인 이해보다, 개념적인 납득이 통계로서 세상을 바라보는 도구로 사용하는 것에 더 도움이 되지 않을까 생각했다.
1. 가우스 분포는 분포다
가우스 분포는 정규 분포라는 용어와 동일하다.가우스 분포는 일단 데이터의 분포이다. 가우스분포는 많은 무작위인자가 변이성을 만들 때 발생한다. 무작위인자들은 서로 보상하는 경향이 있고 어떤 요소들은 값을 크게, 또는 작게 만든다. 대게는 서로 효과가 상쇄하기에 많은 값들은 중심 근처에 분포하게 된다. 간혹, 무적위인자 중 극히 일부만이 같은 방향으로 작용하여 그 자료값을 평균엣 벗어나게 한다. 따라서 많은 값은 평균 근처에 머무르고 몇몇 값들은 평균에서 벗어나고, 극히 일부는 평균에서 매우 벗어나는 결과가 얻어진다. 즉 많은 독립된 인자가 관찰값에 관여 할수록 관찰값의 분포는 이상적인 가우스 분포에 가까워져 간다.
2. 중심극한정리는 가우스분포가 통계학의 중심이 될 수 있도록 만든 근거다
표본이 충분히 클 경우, 모집단이 가우스 분포를 보이지 않더라도 평균들의 분포는 근사적으로 가우스 분포를 보인다. 즉, 표본만 충분히 크다면 모집단이 가우스 분포이더, 그렇지 않던, 표본의 평균들의 분포는 가우스 분포를 보이는 경향이 있다는 것이다. 다시 말하면, 많은 독립된 이자가 관찰값에 관여할수록, 관찰값의 부포는 이상적인 가우스 분포에 가까워지며, 모집단이 적은 독립된 인자에 의해 가우스 분포를 보이지 않는다고 하더라도, 모집단의 표본의 평균의 분포는 가우스 분포가 되는 경향이 있음을 중심극한정리는 말한다.
중심극한정리로서, 모집단의 평균이라는 모수의 분포를 알 수 있고, 그로부터 통계적 추정을 시작할 수 있다는 것이다.
3. 모수는 모집단, 통계량은 표분
통계량은 표본으로 부터 생성된다. 그리고 통계량은 모집단의 특성인 모수를 추정하는데 사용한다. 계속 햇갈렸는데 속이 다 시원하다.
4. 표준오차는 표본의 표준편차이다
모집단에서는 표준편차라고 불리지만, 표본에서는 표준오차라고 불리는 점은 무엇 떄문일까? 모집단은 말그대로 정답이기 떄문에 편차라는 단어를 쓰는 것이고, 표본은 정답이 아니기 때문일까? 그래도 표본들의 편차인데? 일단 그렇다고 하니 기억해 둬야 겠다.
5. 변동계수는 표준오차를 표본평균으로 나눠준 값이다.
변동계수라는 단어는 처음 들어보았다. 변동계수는 표준오차를 평균으로 나누어준 값으로 대개 퍼센트로 표시되며 다음과 같은 의미가 있다.
상대표준오차를 변동계수라고도 하는데, 이는 추정량의 변동계수를 뜻한다. 원래 의미의 변동계수는 표준편차를 평균으로 나눈 값으로 상대 산포를 의미한다. 즉 분산과 표준편차는 절대 산포가 된다.
말 그대로, 얼마나 표본들이 얼마나 변동성이 있는지를 보여주는 것으로 데이터의 밀도를 보여준다고 생각된다. 왜냐하면 어찌되었는 평균값이라는 대표성이 있는 규모값으로 나눠주면서, 데이터 분포의 모양을 숫자로 쉽게 알 수 있기 때문이다. 중앙값으로 나눠주면 어떤의미를 지니게 될까?
이 표본의 변동계수에 따라, 표본의 사용 유무를 정한다고 하는데, 이는 산업계, 학계마다 다르다고 한다. 왜냐하면 측정 대상과 측정 기술의 수준에 따라, 측정 값의 일반적인 변동계수에 차이가 있기 때문이라고 한다.
-1. 배운다는 것에 신비함을 새삼스레 느낀다.
배운다는 것의 신비함을 새삼스레 느낀다. 무언가를 배운다는 것은 내가 세워 놓은 개념들이 무너지면서, 새로운 개념이 새워지는 것이다. 그리고 그 개념으로 말미암아 인식이 바뀌게 된다. 통계학 스터디를 하는 동안 나의 인식은 더욱 어떻게 바뀌게 될까. 기대된다.
'2019년 혁신성장 청년인재 집중양성(빅데이터) > 통계 시발점(욕이 아니라 시작의 의미로)' 카테고리의 다른 글
[Intuitive Biostatistics] 표본에서 모집단으로 (0) | 2019.10.28 |
---|---|
[Intuitive Biostatistics] 확률의 복잡성 (0) | 2019.10.28 |
[통계학 스터디] 20191013. 불편성, 효율성, 일치성, 충분성, 점추정, 구간추정 (0) | 2019.10.13 |
[Intuitive Biostatistics] CHAPTER 1 통계학과 확률은 직관적으로 이해하기는 어렵다. (0) | 2019.10.07 |
[통게학 스터디] 확신 오차 불확도 자유도 T통계량 F통계량 (0) | 2019.10.06 |