본문 바로가기
Computer Science/Data Science

[Data Transformation] Normalization

by Gofo 2022. 6. 13.

Normalization

  • min-max normalization
  • z-score normalization
  • normalization by decimal scaling

 

Min-max Normalization

boundary를 정해서 그 범위 안으로 떨어지도록 한다.

new_min, new_max가 새로운 범위가 된다.

 

때문에 outlier가 있을 경우 데이터가 skewed하게 될 수 있다.

 

 

Z-score Normalization

데이터의 distribution을 고려하여 범위를 바꾼다.

boundary가 존재하지 않아서 outlier는 extreme value를 가질 수 있다.

 

* $\mu$ : mean

* $\sigma$ : standard deviation : $\sigma ^2 = E((X-\bar{X})^2)$

 

Normalization by Decimal Scaling

아래 식에서 $j$를 value의 절댓값이 최대가 1보다 작도록 하는 가장 작은 정수라고 할 때

 

예를 들어 73,000은 j=5일 때 0.73으로 바뀐다.

 

모든 값이 -1 ~ 1의 범위로 떨어지게 된다.

 

 

 

댓글