본문 바로가기

Computer Science/Data Science 86

[Data Processing] Data Transformation & Discretization Data Transformation 데이터를 변환하는 과정이다. Original value를 새로운 value로 바꾸는 작업이다. Normalization 기존의 데이터를 새로운 범위로 떨어지도록 바꾸는 작업이다. 방법 min-max normalization z-score normalization normalization by decimal scaling Discretization Concept hierarchy climbing Continuous attribute를 interval로 쪼개어 discrete하게 바꾼다. Classification 등을 위해 사용되기도 한다. 장점 데이터 크기가 줄어든다. 예 : float(4byte) → char(1byte) 비슷한 value는 같은 카테고리로 떨어지기 .. 2022. 6. 13.
[Data Reduction] Data Compression Data Compression 데이터를 작게 만들고 나중에 복구하는 것이 목표이다. 통신 등에서 주로 사용된다. Dimensionality reduction이나 numerosity reduction 또한 data compression의 일종으로 생각되기도 한다. 사람이 차이를 느끼지 못할 정도의 손실이 있더라도 데이터 크기를 많이 줄일 수 있다면 lossy compression이 선호되기도 한다. 오디오 같은 경우에서 lossy compression이 선호된다. 종류 String compression : lossless → 원래대로 완전히 복구될 수 있어야 한다. Audio/video compression : lossy Time sequence : 시간에 따라서 변하는 데이터 2022. 6. 13.
[Data Reduction] Numerosity Reduction Numerosity Reduction 기존과 다른 형태로 데이터를 표현함으로써 데이터의 크기를 줄이는 방법이다. Parametric method data에 fit하는 모델을 생성하고 그의 파라미터만 저장한다. 파라미터만 저장하기 때문에 outlier은 무시된다. 모델이 데이터와 맞지 않으면 결과가 전체적으로 무너지는 단점이 있다. 예 : regression Non-parametric method 모델을 생성하지 않고 다른 방식으로 데이터를 표현한다. 예 : histogram, clustering, sampling Regression Analysis Independent variable로 dependent variable을 예측하는 모델을 만든다. independent variable 결과를 만들어내는 원.. 2022. 6. 13.
[Data Reduction] Dimensionality Reduction Dimensionality Reduction Curse of Dimensionality Dimension이 커질 수록 데이터가 sparse하게 분포하게 된다. 이로 인해 차이가 큰 object와의 거리와 차이가 작은 object와의 거리가 크게 차이나지 않게 된다. 때문에 dimension을 줄일 필요가 있다. Dimensionality Reduction의 장점 curse of dimensionality를 피할 수 있다. irrelevant feature을 제거할 수 있다. noise를 줄일 수 있다. data mining에 필요한 time과 space를 줄일 수 있다. visualization이 쉬워진다. 방법 Wavelet transforms principal component analysis (PC.. 2022. 6. 12.
[Data Processing] Data Reduction Data Reduction 기존에 주어진 데이터에 대해 마이닝 결과는 유지하면서 크기를 줄이는 방법이다. 데이터가 많아지면 data analysis의 quality는 높아지지만 그만큼 time이 증가한다. 때문에 quality는 유지하되 time을 줄이기 위해 data reduction이 필요하다. 방법 dimensionality reduction attribute를 줄인다. 방법 Wavelet transforms Principla Components Analysis (PCA) Feature stubset selection numerosity reduction 수식을 이용해서 데이터를 표현한다. 방법 regression histogram clustering sampling data compression .. 2022. 6. 12.