본문 바로가기

카테고리 339

[Data Reduction] Data Compression Data Compression 데이터를 작게 만들고 나중에 복구하는 것이 목표이다. 통신 등에서 주로 사용된다. Dimensionality reduction이나 numerosity reduction 또한 data compression의 일종으로 생각되기도 한다. 사람이 차이를 느끼지 못할 정도의 손실이 있더라도 데이터 크기를 많이 줄일 수 있다면 lossy compression이 선호되기도 한다. 오디오 같은 경우에서 lossy compression이 선호된다. 종류 String compression : lossless → 원래대로 완전히 복구될 수 있어야 한다. Audio/video compression : lossy Time sequence : 시간에 따라서 변하는 데이터 2022. 6. 13.
[Data Reduction] Numerosity Reduction Numerosity Reduction 기존과 다른 형태로 데이터를 표현함으로써 데이터의 크기를 줄이는 방법이다. Parametric method data에 fit하는 모델을 생성하고 그의 파라미터만 저장한다. 파라미터만 저장하기 때문에 outlier은 무시된다. 모델이 데이터와 맞지 않으면 결과가 전체적으로 무너지는 단점이 있다. 예 : regression Non-parametric method 모델을 생성하지 않고 다른 방식으로 데이터를 표현한다. 예 : histogram, clustering, sampling Regression Analysis Independent variable로 dependent variable을 예측하는 모델을 만든다. independent variable 결과를 만들어내는 원.. 2022. 6. 13.
[Data Reduction] Dimensionality Reduction Dimensionality Reduction Curse of Dimensionality Dimension이 커질 수록 데이터가 sparse하게 분포하게 된다. 이로 인해 차이가 큰 object와의 거리와 차이가 작은 object와의 거리가 크게 차이나지 않게 된다. 때문에 dimension을 줄일 필요가 있다. Dimensionality Reduction의 장점 curse of dimensionality를 피할 수 있다. irrelevant feature을 제거할 수 있다. noise를 줄일 수 있다. data mining에 필요한 time과 space를 줄일 수 있다. visualization이 쉬워진다. 방법 Wavelet transforms principal component analysis (PC.. 2022. 6. 12.
[Data Processing] Data Reduction Data Reduction 기존에 주어진 데이터에 대해 마이닝 결과는 유지하면서 크기를 줄이는 방법이다. 데이터가 많아지면 data analysis의 quality는 높아지지만 그만큼 time이 증가한다. 때문에 quality는 유지하되 time을 줄이기 위해 data reduction이 필요하다. 방법 dimensionality reduction attribute를 줄인다. 방법 Wavelet transforms Principla Components Analysis (PCA) Feature stubset selection numerosity reduction 수식을 이용해서 데이터를 표현한다. 방법 regression histogram clustering sampling data compression .. 2022. 6. 12.
[Data Processing] Data Integration Data Integration 여러 곳에 저장된 데이터들을 하나로 합치는 과정이다. Schema Integration Schema integration을 통해 다른 장소의 데이터들을 합칠 수 있다. Schema integration은 schema를 보고 합치는 과정으로 schema level에서 같은 attirbute를 찾는다. Problems Redundancy나 inconsistency를 제거하면서 integration해야 하기 때문에 careful integration이 필요하다. 이들을 제거함으로써 mining의 speed나 quality를 개선할 수 있다. entity identification problem 서로 다른 데이터 source에 있는 같은 entity를 찾는 문제이다. 중복된 데이터.. 2022. 6. 12.