Normalization
- min-max normalization
- z-score normalization
- normalization by decimal scaling
Min-max Normalization
boundary를 정해서 그 범위 안으로 떨어지도록 한다.
new_min, new_max가 새로운 범위가 된다.
때문에 outlier가 있을 경우 데이터가 skewed하게 될 수 있다.
Z-score Normalization
데이터의 distribution을 고려하여 범위를 바꾼다.
boundary가 존재하지 않아서 outlier는 extreme value를 가질 수 있다.
* $\mu$ : mean
* $\sigma$ : standard deviation : $\sigma ^2 = E((X-\bar{X})^2)$
Normalization by Decimal Scaling
아래 식에서 $j$를 value의 절댓값이 최대가 1보다 작도록 하는 가장 작은 정수라고 할 때
예를 들어 73,000은 j=5일 때 0.73으로 바뀐다.
모든 값이 -1 ~ 1의 범위로 떨어지게 된다.
'Computer Science > Data Science' 카테고리의 다른 글
Social Network (0) | 2022.06.13 |
---|---|
[Data Discretization] Binning (0) | 2022.06.13 |
[Data Processing] Data Transformation & Discretization (0) | 2022.06.13 |
[Data Reduction] Data Compression (0) | 2022.06.13 |
[Data Reduction] Numerosity Reduction (0) | 2022.06.13 |
댓글