Computer Science 254 [Data Transformation] Normalization Normalization min-max normalization z-score normalization normalization by decimal scaling Min-max Normalization boundary를 정해서 그 범위 안으로 떨어지도록 한다. new_min, new_max가 새로운 범위가 된다. 때문에 outlier가 있을 경우 데이터가 skewed하게 될 수 있다. Z-score Normalization 데이터의 distribution을 고려하여 범위를 바꾼다. boundary가 존재하지 않아서 outlier는 extreme value를 가질 수 있다. * $\mu$ : mean * $\sigma$ : standard deviation : $\sigma ^2 = E((X-\bar{X.. 2022. 6. 13. [Data Processing] Data Transformation & Discretization Data Transformation 데이터를 변환하는 과정이다. Original value를 새로운 value로 바꾸는 작업이다. Normalization 기존의 데이터를 새로운 범위로 떨어지도록 바꾸는 작업이다. 방법 min-max normalization z-score normalization normalization by decimal scaling Discretization Concept hierarchy climbing Continuous attribute를 interval로 쪼개어 discrete하게 바꾼다. Classification 등을 위해 사용되기도 한다. 장점 데이터 크기가 줄어든다. 예 : float(4byte) → char(1byte) 비슷한 value는 같은 카테고리로 떨어지기 .. 2022. 6. 13. [Data Reduction] Data Compression Data Compression 데이터를 작게 만들고 나중에 복구하는 것이 목표이다. 통신 등에서 주로 사용된다. Dimensionality reduction이나 numerosity reduction 또한 data compression의 일종으로 생각되기도 한다. 사람이 차이를 느끼지 못할 정도의 손실이 있더라도 데이터 크기를 많이 줄일 수 있다면 lossy compression이 선호되기도 한다. 오디오 같은 경우에서 lossy compression이 선호된다. 종류 String compression : lossless → 원래대로 완전히 복구될 수 있어야 한다. Audio/video compression : lossy Time sequence : 시간에 따라서 변하는 데이터 2022. 6. 13. [Data Reduction] Numerosity Reduction Numerosity Reduction 기존과 다른 형태로 데이터를 표현함으로써 데이터의 크기를 줄이는 방법이다. Parametric method data에 fit하는 모델을 생성하고 그의 파라미터만 저장한다. 파라미터만 저장하기 때문에 outlier은 무시된다. 모델이 데이터와 맞지 않으면 결과가 전체적으로 무너지는 단점이 있다. 예 : regression Non-parametric method 모델을 생성하지 않고 다른 방식으로 데이터를 표현한다. 예 : histogram, clustering, sampling Regression Analysis Independent variable로 dependent variable을 예측하는 모델을 만든다. independent variable 결과를 만들어내는 원.. 2022. 6. 13. [Data Reduction] Dimensionality Reduction Dimensionality Reduction Curse of Dimensionality Dimension이 커질 수록 데이터가 sparse하게 분포하게 된다. 이로 인해 차이가 큰 object와의 거리와 차이가 작은 object와의 거리가 크게 차이나지 않게 된다. 때문에 dimension을 줄일 필요가 있다. Dimensionality Reduction의 장점 curse of dimensionality를 피할 수 있다. irrelevant feature을 제거할 수 있다. noise를 줄일 수 있다. data mining에 필요한 time과 space를 줄일 수 있다. visualization이 쉬워진다. 방법 Wavelet transforms principal component analysis (PC.. 2022. 6. 12. 이전 1 2 3 4 5 6 7 8 ··· 51 다음