본문 바로가기
Computer Science/Data Science

[Data Discretization] Binning

by Gofo 2022. 6. 13.

Binning

  • Equal-width partitioning
    • = equal-distance partitioning
    • 데이터를 동일한 간격으로 나눈다.
    • 문제점
      • outlier에 의해 영향을 많이 받는다. → outlier는 extreme value이기 때문에 정상 데이터들이 한쪽으로 몰리게 된다.
      • skewed data를 다룰 수 없다. → 한쪽으로 몰려있는 데이터들은 다 동일한 카테고리로 묶인다.
  • Equal-depth partitioning
    • = equal-frequency partitioning
    • 각 구간에 속하는 데이터들의 개수가 동일해지도록 나눈다.
    • equal-width보다 더 좋은 data scaling 방법이다.

 

Binning for Data Smoothing

Binning을 했을 때 같은 카테고리(bin)에 속하는 데이터들을 특정 값으로 대표함으로써  data smoothing을 할 수 있다.

 

  • bin means
    • Bin 안의 값을 평균 값으로 통일 시킨다.
    • 예시
      • Bin1 : 4, 8, 9, 15 → 9, 9, 9, 9
      • Bin2 : 21, 21, 24, 25 → 23, 23, 23, 23
      • Bin3 : 26, 28, 29, 34 → 29, 29, 29, 29
  • bin boundaries
    • 가장 가까운 boundary 값으로 바꾼다.
    • 예시
      • Bin1 : 4, 8, 9, 15 → 4, 4, 4, 15
      • Bin2 : 21, 21, 24, 25 → 21, 21, 25, 25
      • Bin3 : 26, 28, 29, 34 → 26, 26, 26, 34

 

Binning vs. Clustering

Clustering을 이용해서 discretization을 하면 비슷한 것들 끼리 같은 label을 갖도록 할 수 있다.

 

 

댓글