Binning
- Equal-width partitioning
- = equal-distance partitioning
- 데이터를 동일한 간격으로 나눈다.
- 문제점
- outlier에 의해 영향을 많이 받는다. → outlier는 extreme value이기 때문에 정상 데이터들이 한쪽으로 몰리게 된다.
- skewed data를 다룰 수 없다. → 한쪽으로 몰려있는 데이터들은 다 동일한 카테고리로 묶인다.
- Equal-depth partitioning
- = equal-frequency partitioning
- 각 구간에 속하는 데이터들의 개수가 동일해지도록 나눈다.
- equal-width보다 더 좋은 data scaling 방법이다.
Binning for Data Smoothing
Binning을 했을 때 같은 카테고리(bin)에 속하는 데이터들을 특정 값으로 대표함으로써 data smoothing을 할 수 있다.
- bin means
- Bin 안의 값을 평균 값으로 통일 시킨다.
- 예시
- Bin1 : 4, 8, 9, 15 → 9, 9, 9, 9
- Bin2 : 21, 21, 24, 25 → 23, 23, 23, 23
- Bin3 : 26, 28, 29, 34 → 29, 29, 29, 29
- bin boundaries
- 가장 가까운 boundary 값으로 바꾼다.
- 예시
- Bin1 : 4, 8, 9, 15 → 4, 4, 4, 15
- Bin2 : 21, 21, 24, 25 → 21, 21, 25, 25
- Bin3 : 26, 28, 29, 34 → 26, 26, 26, 34
Binning vs. Clustering
Clustering을 이용해서 discretization을 하면 비슷한 것들 끼리 같은 label을 갖도록 할 수 있다.
'Computer Science > Data Science' 카테고리의 다른 글
[Social Network] Social Network Analysis (0) | 2022.06.13 |
---|---|
Social Network (0) | 2022.06.13 |
[Data Transformation] Normalization (0) | 2022.06.13 |
[Data Processing] Data Transformation & Discretization (0) | 2022.06.13 |
[Data Reduction] Data Compression (0) | 2022.06.13 |
댓글