본문 바로가기

2019년 혁신성장 청년인재 집중양성(빅데이터)/[COURSERA] Machine Learning Stanford Uni

[week9] Densitiy Estimation

A. Problem Motivation

 

 

1. 분포의 밀도를 이용하여, 분포의 중심에서 멀어진 값을 이상치로 분류하는 것이다. 통계적접근법. 

 

1. 이상치 검색의 예시 :  어떤 관찰 값이 사기일 확률, 제조 공정에서의 불량품 검색, 데이터 센타에서의 컴퓨터 감독

 

B. Gaussuan Distribution

1. 가우시안 분포에서의 확률은 면적으로 표현되며, 그 공식은 위와 같다. 가우시간 분포는 평균값인 뮤와 표준편차인 시그마의 제곱으로 표현될 수 있다.

 

 

1. 간단하다. 뮤는 중앙의 데이터가 가장 많은 지점, 표준편차 시그마가 커질수록 넓게 펴진다.

 

1. 뮤 말그대로 평균이기 때문에 m으로 나눠주는 것이고, 시그마의 제곱은 분산이기 때문에 중앙에서 멀어진 정도의 평균을 재는 것에 사용된다. 

 

C. Algorithm

 

1. 알고리즘 역시 간단하다. 각 피쳐의 분포로부터, 그 피쳐가 나올 확률을 모두 곱하는 것이다.

 

2. 교수님께서 친절하게 웃기게 생긴 파이에 대해서 이야기 해주셨다. 우리가 알고 있는 시그마는 모든 값을 더하는 것이지만, 저 파이는 값을 곱하는 것을 줄여쓰는 기호라고 한다.

 

1. 첫째, 피쳐를 선택한다. 

 

2. 둘째, 각 피쳐들의 분포의 특성인 뮤와 시그마를 구한다.

 

3. 셋째, 확률을 계산한다

 

4. 넷째, 그 확률이 엡실론보다 작다면 이것은 이상한 것이다.