본문 바로가기

STACKOVERFLOW 1일 1질문

normalization, standardization의 차이는 무엇일까?

https://brunch.co.kr/@rapaellee/4

 

표준화 및 정규화 (그리고 시간)

딸바보 잡부 | 분석이란 걸 위한 통계 완전 기초 Chapter 1. 통계 기본 함수 Chapter 2. 표준화/정규화 * 통계 분석에 유용하지만 극악의 난이도를 부여하는 시간(time)에 대해서 부가적으로 약간 이야기하겠습니다. Chapter 3. 데이터 전처리 Chapter 4. 클러스터링, 장바구니 Chapter 5. 의사결정나무(Decision Tree), 회귀분석

brunch.co.kr

엄청나게 잘 정리해주신 것 같다. 이해가 빡간다.

 

 표준화(Standardization)

 

1.  데이터의 시간의 개념이 들어가면 데이터는 점점 멋져진다.

 

2. 표준화(Standardization)은 평균을 기준으로 얼마나 멀리 떨어져 있는지를 나타내는 값으로 이 방법을 적용하려는 때, 2개 이상의 대상이 단위가 다를 때 대상 데이터를 같은 기준으로 볼 수 있게 변환해준다.

 

3. 이 방법은 데이터를 다소 평평하게 만드는 특성을 가진다. 즉 간극이 줄어드는 효과가 발생한다.

*근데 이게 좋은 걸까? 아직 잘 모르겠다.

 

 

 

 정규화(Normalization)

 

 

1. 정규화는 전체 구간을 0~100으로 설정하여 데이터를 관찰하는 방법이다.

2. 규모를 줄인 것이기 때문에, 특정 데이터의 위상을 파악할 때 좋다.

 

아직까지는 고놈이 고놈 같긴 하다. 0~100으로 놓고 보느냐, 평균에서 얼마나 떨어져 있는지를 보느냐가 차이점 이기는 하지만 말이다.

 

정답은 없을 듯

데이터를 어떻게 해석하는지가 문제일 뿐이다.