본문 바로가기
Computer Science/Data Science

[Data Processing] Data Reduction

by Gofo 2022. 6. 12.

Data Reduction

기존에 주어진 데이터에 대해 마이닝 결과는 유지하면서 크기를 줄이는 방법이다.

 

데이터가 많아지면 data analysis의 quality는 높아지지만 그만큼 time이 증가한다.

때문에 quality는 유지하되 time을 줄이기 위해 data reduction이 필요하다.

 

방법

  • dimensionality reduction
    • attribute를 줄인다.
    • 방법
      • Wavelet transforms
      • Principla Components Analysis (PCA)
      • Feature stubset selection
  • numerosity reduction
    • 수식을 이용해서 데이터를 표현한다.
    • 방법
      • regression
      • histogram
      • clustering
      • sampling
  • data compression
    • text나 image를 줄이는 방식이다.

 

 

댓글