본문 바로가기

2019년 혁신성장 청년인재 집중양성(빅데이터)/ADsP 데이터 분석 준전문가 정리

[4과목: 데이터 분석] 통계 분석

A. 통계학 개론

 

1. 통계학은 자료로부터 유용한 정보를 이끌어 내는 학문이다. 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리 그리고 이를 해석하는 방법을 모두 포함한다.

 

2. 모집단과 표본

 

모집단은 유용한 정보의 대상이 되는 것이다. 즉 모집단은 우리가 알고자 하는 전체를 의미한다. 모집단을 구성하는 개체를 추출단위 혹은 원소라고 한다.

 

모집단에 대해 조사하는 방법에는 총조사와 표본조사가 있다. 총조사는 모집단의 개체 모두를 조사하는 방법으로 많은 비용과 시간이 소요된다. 특별한 경우를 제외하고는 실시되지 않는다.

 

모집단의 이부분을 표본이라 한다. 모집단에 대해 알고자 하는 값을 모수(parameter)라고 하고 모수를 추론하기 위해 구하는 표본의 값들을 통계량이라고(statistic) 한다.

 

모집단 유한 모집단과 무한 모집단으로 나늰다.

 

3. 표본추출의 방법

 

3-1. 표본조사

 

단순랜덤추출법 : N 개의 원소로 구성된 모집단에서 n개의 표본을 추출할 때, 각 원소에 1,2,3...N까지의 번호를 부여한다. 여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출한다.

 

계통추출법 : 모집단의 모든 원소들에게 일련번호를 부여하고, 이를 순서대로 나열한 후에 K개(K=N/n)씩 n개의 구간으로 나눈다. 첫 구간(1,2,3,4...K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출한다.

 

 

집락추출법 : 모집단이 몇 개 집락이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용된다. 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 ㅍ본을 임의로 선택한다.

 

 

 

층화추출법 : 상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 이지적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층으로 나눈 후, 각 층에서 표본을 랜덤하게 추출한다.

 

 

 

3-2. 실험

 

실험이란 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법이다.

 

 

4. 자료의 종류

 

측정(measurement)는 표본조사나 실험을 실시하는 과정에서 추출된 원소들이 실험 단위로부터 주언진 목적에 적합하도록 관측해 자료를 얻는 것이다.

 

측정방법은 크게 아래와 같다.

 

명목척도: 측정 대상이 어느 집단에 속하는 지 분류할 때 사용되는 척도.

 

순서척도: 측정 대상의 특성이 가지는 서열 관계를 관측하는 척도.

 

구간척도: 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 측정 결과가 숫자로 표현되나, 해당 속성이 전혀 없는 상태인 절대적인 원점이 없다.따라서 두 관측값 사이의 비율은 별 의미가 없게 되는 척도로, 온도, 지수 등이 있다.

 

비율척도: 절대적 기준인 0 값이 존재하고 모든 사칙연산이 가능하며, 제일 많은 정보를 가지고 있는 척도이다. 무게, 나이, 연간소득, 제품가격 등이 있다.

 

B. 통계 분석

 

통계 분석이란 특정한 딥단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정을 말한다.

 

이러한 의사결정을 통계학에서는 통계적 추론이라고 한다.

통계적 추론이란 수집된 자료를 이용해 대상 집단에 대한 의사결정을 하는 것이다.

 

대상 딥단의 특성값이 무엇일까 추측하는 추정과

대상 딥단에 대해 특정한 가설을 설정한 후에 그 가설의 채택 여부를 결정하는 가설검정이 있다.

미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행하는 예측이 있다.

 

C. 획률 및 확률분포

 

1. 확률이란 '특정사건이 일어날 가능성의 척도'라고 정의할 수 있다. 통계적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합을 표본 공간이라 하고, 사건이란 표본 공간의 부분집합을 말한다. 사건 중에서 오직 한 개의 원소로만 이루어진 사건을 근원 사건 이라고 한다.

 

2. 표본공간이 유한 개의 원소로 구성이 되어있고, 근원사건들이 일어날 가능성이 모두 같다면, 사건 E의 확률을 다음과 같이 나타낼 수 있다.

 

사건 E가 일어날 확률 P = 사건 E의 개수/모든 결과들의 개수

 

3. 일반적으로 확률은 표본 공간의 부분집합에 실수값을 지정한 것으로 다음과 같은 세 가지 조건을 만족한다.

 

3-1) 모든 사건 E의 확률 값은 0과 1 사이에 있다.

3-2) 전체 집합의 확률은 1이다.

3-3)서로 배반인 사건들의 합집한의 확률은 각 사건들의 확률의 합이다.

*배반 사건이란 교집합이 공집합인 사건들을 말한다.

 

4. 조건부 확률과 독립사건

 

사건 A가 일어났다는 가정하의 사건 B의 확률을 조건부 확률이라 한다. 사건 A가 주어졌을 때, 조건부 확률은 P(B|A)와 같이 표시하고 아래와 같이 정의된다.

 

P(B|A) = A와 B 사건이 동시에 일어날 확률/A가 일어날 확률로 나눈 것이다.

 

두 사건이 독립적인 사건이라면  A와 B가 동시에 일어날 확률은 A가 일어날 확률과 B가 일어날 확률의 곱이다.

그렇기 때문에, 사건 A가 일어났을 때 사건 B가 일어날 확률은 사건 B가 일어날 확률과 동일하다.

 

 

5. 확률변수와 확률분포

 

특정 사건에 대해 실수값을 갖는 변수를 정의하면, 특정 사건이 일어날 확률은 그 변수가 특정 값을 가질 확률로 표현할 수 있다.

 

이와 같이 특정 값이 나타날 가능성이 확률적으로 주어지는 변수를 확률변수(random variable)이라고 한다.

 

수학적으로 표현하면, 확률변수는 정의역이 표본공간이고 치역이 실수값인 함수다

 

확률변수에는 이산형 확률변수와 연속형확률변수가 있다.

 

이산형 확률 변수: 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수를 말한다. 따라서 이산형 확률변수는 확률이 0보다 큰 값을 갖는 점들로 확률을 표현할 수 있다.

 

각 이산점에 있어서 확률의 크기를 표현하는 함수를 확률질량함수라고 한다.

 

연속형 확률변수 : 사건의 확률이 그 사건 위에서 어떤 0보다 큰 값을 갖는 함수의 면적으로 표현 될 수 있는 확률 변수를 말한다. 이 때, 확률밀도함수라고 한다.

 

 

6. 추정과 가설검정

 

가. 점추정

 

통계적 방법론을 통해서 알고자하는 대상은 모집단의 확률분포이다. 모집단의 확률분포의 특징을 표현하는 값들을 모수라고 한다. 대표적인 모수의 예는 모집단의 평균, 분산, 표준편차, 백분위수 등이 있다.

 

보딥단에서 추출된 표본을 기반으로 모수들에 대한 통계적 추론을 한다. 통계적 추론은 추정과 가설검정으로 나뉘고 추정은 다시 점추정과 구간추정으로 나뉜다.

 

가장 참값이라고 ㅇ겨지는 하나의 모수의 값을 택하는 것을 점추정이라고 한다. 즉, 점추정은 '모수가 특정한 값일 것'이라고 추정하는 것이다. 모집단의 평균을 추정하기 위한 표본 평균이 대표적인 예따. 

 

나. 구간추정

 

점추정은 '모수가 특정한 값일 것'이라고 선언하는 것으로, 사실상 추정이 얼마나 정확한가를 판단하기가 불가능하다. 이러한 점추정의 정확성을 보완하는 방법이 구간추정이다. 구간추정이란 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것으로 구해진 구간을 신뢰구간이라고 한다. 

 

신뢰수준 95%의 의미는 한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 확률표본을 무한히 많이 추출하여 각 확률표본 마다 신뢰구간을 구하면, 이 무한히 많은 신뢰구간 중에서 95%의 신뢰구간이 미지의 모수를 포함한다는 의미다.

 

이는 주어진 한 개의 신뢰구간이 미지의 모수를 포함할 확률이 0.95라는 것과는 다른 의미다. 주어진 한 개의 신뢰구간은 특정한 숫자들로 표현되고, ㅁ수도 미지의 특정한 값이므로 확률로 해석하기는 어렵다.

 

다. 가설검정

 

가설검정이란 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택 여부를 결정하는 분석방법이다. 가설검정에서 가장 기본적인 사항은 검정하고자 하는 모집단의 모수에 대한 가설 설정이다.

 

가설은 항상 귀무가설과 대립가설 두 가지로 설정하며

가설검정이란 표본관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이라고 할 수 있다. 

 

확실하게 증명하고 싶은 가설, 뚜려ㅓㅅ한 증거가 있어야 채택할 수 있는 가설, 혹은 그 결곽가 값비싼 가설을 대립가설로 지정한다. 대립가설과 반대의 증거를 찾기 위해 정한 가설을 귀무가설이라고 한다.

 

검정에 사용되는 통계량을 검정통계량이라고 하며, 추정에 사용되는 통계량과 유사하게 표본평균, 표본분산 등이 사용된다.

 

가설검정은 귀무가설이 옳다는 전제 하에서 관측된 검정 통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확율을 구하여 귀무가설 채택여부를 결정한다.

 

귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률을 p 값이라고 한다.

 

이 값이 미리 주어진 기준값인 유의수준보다 작으면 귀무가설이 나올 가능성이 적다고 판단하여 귀무가설을 기각한다. 유의수준은 보통 0.01, 0.05, 0.1 중 한 개의 값을 사용한다. 기각역이란 귀무가설을 기각하는 통계량의 영역을 말한다.

 

가설 검정과정 중에, 두 가지 오류가 발생할 수 있다. 첫째는 귀무가설이 옳은데도 기각하게 되는 오류고 이러한 오류를 제 1종 오류라고 한다. 

 

두 번째는 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류로 이러한 오류를 제2종 오류라고 한다.

 

일반적으로 가설검저에서는 제 1종 오류의 크기를 고정시킨 뒤에, 제2종 오류가 최소가 되도록하는 기각역을 설정한다.

 

7. 비모수검정

 

1. 통계적 추론에서 모집단의 모수에 대한 검저에는 모수적 방법과 비모수적 방법이 있다.

 

모수적 검정방법은 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.

 

비모수적 검정은 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 방법이다. 관측된 자료가 특정분포를 따란다고 가정할 수 없는 경우에 이용된다.

 

 

B. 기초 통계 분석

 

1. 기초 통계량을 보는 함수 summary()

 

2. 회귀분석

 

회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법이다. 영향을 받는 변수를 종속변수 혹은 반응변수라 하고 보통 y로 표기한다. 영향을 주는 변수를 독립변수 혹은 설명변수라고 한다.

 

회귀계수의 추정량을 최소제곱추정량(Least Squares Estimator, LSE)라고 한다.

 

단순선형회귀모형이 종속변수의 변동을 설명하는데 충분하지 않다면 두 개 이상의 독립변수를 사용하여 종속변수의 변화를 설명하는 다중회귀 분석을 실시할 수 있다.

 

 

적합한 모형을 찾은 후에는 모형이 적절한지 확인을 해야한다.

 

모형이 통계쩍으로 유의미한가? F 통계량을 확인한다. 유의수준 5% 하에서 F통계량의 p값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.

 

회귀계수들이 유의미한가?

해당 계수의 t통계량과 p 값 또는 이들의 신뢰구간을 확인한다.

 

모형이 얼마나 설명력을 갖는가?

결정계수를 확인한다. 결정계수 0에서 1값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

 

모형이 데이터를 잘 적합하고 있는가?

잔차를 그래프로 그리고 회귀진단을 한다.

 

데이터가 아래의 모형 가정을 만족시키는가

선형성

독립성

등분산성

비상관성

정상성

 

독립변수의 영향성이 있나라는 것을 보는 것이 t값과 유의 확률이고

F는 분산 모형에 대한 적합성, 즉 회귀 모형이 적절하게 나타났나라는 것을 보인다.

 

https://freshrimpsushi.tistory.com/670

 

R 에서 다중회귀분석 결과 보는 법 How to Interpret Multiple Regression Summary in R

다중회귀분석 보러가기 회귀계수의 F검정 보러가기 *하단에 예제코드 전체가 있다. *수학, 통계적인 기초가 부족한 비전공자는 밑줄 그어진 부분만 읽어도 상관 없다. *단순회귀분석이 뭔지 잘 모르겠다면 단순회..

freshrimpsushi.tistory.com

 

 

3. 최적회귀방적식의 선택 : 설명변수의 선택

 

모든 가능한 조합의 회귀분석

모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC나 BIC의 기준으로 가장 적합한 회귀모형을 선택한다. 

 

단계적 변수선택

 

전진선택법

절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다. 추가할 수 있는 후보가 되는 설명변수 중 모형에 추가 했을 때, 가장 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가하고, 그렇지 않으면 추가를 멈춘다.

 

후진제거법

 

족립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수들을 제거하고 이 때의 모형을 선택한다.

 

단계별방법

 

전진선택법에 의해 변수를 추가하면서, 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가또는 제거되는 변수의 여부를 검토해, 더 이상 없을 때 중단한다.

 

 

4. 다변량 분석

 

상관분석은 데이터 안의 두 변수 간의 관계를 알아보기 위해 한다. 두 변수의 상관관계를 알아보기 위해 상관계수를 사용한다. 상관계수에는 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정하는 데 쓰이는 피어슨 상관계수와 서열척도인 두 변수들의 상관관계를 척정하는 데 사용하는 스피어만 상관계수가 있다.

 

피어슨의 상관계수는 두 변수 간의 선형관계 크기를 측정하는 값으로 비선형적인 상관관계는 나타내지 못한다.

스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값으로, 한 변수를 단조 증가 함수로 변환하여 다른 변수를 나타낼 수 있는 정도로 나타낸다. 스피어만의 상관계수는 두 변수를 모두 순위로 변환시킨 후, 두 순위 사이의 피어슨 상관계수로 정의가 된다.

 

5. 다차원척도법

 

다차원척도법은 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법을 말한다. 주어진 거리는 추상적인 대상들 간의 거리가 될 수도 있고, 실수공간에서의 거리가 될 수도 있다. 대상들을 2차원이나 3차원 실수공간의 점으로 대응시킬 수 있다면 이 점들을 시각화할 수 있고, 이는 관측치들 간의 전반적 관계에 대한 직관적 이해를 할 수 있게 도와준다.

 

 

6. 주성분 분석

 

주성분 분석은 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변호나시키는 방법으로 자료의 차원을 축약시키는데 주로 사용된다.

 

해당 주성분이 관측치를 얼마나 설명하는지에 대해서!.

 

 

D. 시계열 예측

 

1. 정상성

시간의 흐름에 따라서 관측된 데이터를 시계열자료라고 한다. 시계열 분석을 위해서는 정상성을 만족해야 한다. 정상성은 시점에 상관없이 시계열의 특성이 일정하다는 것을 의미하며, 이를 만족한다는 것은 다음과 같은 것을 말한다.

 

정상성은 평균이 일정하다, 분산이 시점에 의존하지 않는다. 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다를 의미한다. 

 

2. 시계열 모형 

 

자기회구 모형(AR 모형)

자기 회귀 모형은 현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있다는 의미이며 AR(p)모형이다.

백색잡은 과정 : 시계열 분석에서 오차항을 의미.

 

자기회귀모형은 현 시점의 시곌 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는 데 있다.

 

자기회귀모형인지 판단하기 위한 모형 식별을 위해서는 자기상관함수(ACF)와 부분자기상관함수(PACF)를 이용하여 식별한다.

 

 

 

이동평균모형(MA)

 

시계열자료를 모형화 하는데 자기회귀모형 다음으로 많이 쓰이는 모형이 이동평균모형이다.

 

이동평균모형은 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현되었기 때문에 항상 정상성을 만족한다. 때문에 이동평균모형은 정상성 가정이 필요없다.

 

자기회귀누적이동평균모형(ARIMA)모형)

 

대부분의 많은 시계열 자료가 자기회귀누적이동평균모형을 따른다. ARIMA 모형은 기본적으로 비정상 시계열모형이기 떄문에 차분이나 변환을 통해 AR,MA,ARMA모형으로 정상화할 수 있다.

 

 

분해시계열

분해 시계열이란 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며, 회귀분석적인 방법을 주로 사용하고 있다. 

 

추세요인

계절요인

순환요인

불규칙요인