본문 바로가기

Computer Science 254

[Data Processing] Data Reduction Data Reduction 기존에 주어진 데이터에 대해 마이닝 결과는 유지하면서 크기를 줄이는 방법이다. 데이터가 많아지면 data analysis의 quality는 높아지지만 그만큼 time이 증가한다. 때문에 quality는 유지하되 time을 줄이기 위해 data reduction이 필요하다. 방법 dimensionality reduction attribute를 줄인다. 방법 Wavelet transforms Principla Components Analysis (PCA) Feature stubset selection numerosity reduction 수식을 이용해서 데이터를 표현한다. 방법 regression histogram clustering sampling data compression .. 2022. 6. 12.
[Data Processing] Data Integration Data Integration 여러 곳에 저장된 데이터들을 하나로 합치는 과정이다. Schema Integration Schema integration을 통해 다른 장소의 데이터들을 합칠 수 있다. Schema integration은 schema를 보고 합치는 과정으로 schema level에서 같은 attirbute를 찾는다. Problems Redundancy나 inconsistency를 제거하면서 integration해야 하기 때문에 careful integration이 필요하다. 이들을 제거함으로써 mining의 speed나 quality를 개선할 수 있다. entity identification problem 서로 다른 데이터 source에 있는 같은 entity를 찾는 문제이다. 중복된 데이터.. 2022. 6. 12.
[Data Processing] Data Cleaning Data Cleaning 실세계의 데이터들을 dirty 하다. incomplete missing data 등 데이터가 불완전하다. 원인 : 사람/컴퓨터의 실수, attribute에 관심이 떨어져서 정보를 유지하지 않음, 통계적인 정보만 존재하고 구체적인 개별 정보는 없는 경우 noisy : error, outliers, noise 데이터 등 inconsistent 일관되지 않은 정보가 존재한다. rating이나 단위의 차이, 분산되어 저장되는 동일 데이터 등 예 age = 42, birthday = 03/07/2010 rating = "1, 2, 3" vs "A, B, C" intentional missing data와 유사 의도적으로 잘못된 데이터를 넣는 경우 예 : 생년월일을 모를 경우 "1900.0.. 2022. 6. 12.
Data Processing & Data Quality Measure for Data Qaulity Accuracy : 데이터가 정확한다. Completeness : missing value가 적은가 Consistency 데이터가 일관성 있는가 데이터는 여러 곳에 저장되어 있을 수 있는데 데이터 수정 시 일부 테이블의 데이터만 수정하는 경우가 발생할 수 있다. Dangling : 이곳에 데이터가 있다했는데 막상 가보니 존재하지 않는다. Timeliness : 얼마나 최신의 정보인가 Believability : 데이터를 얼마나 신뢰할 수 있는가 Interpretability : 얼마나 이해하기 쉬운 데이터인가 Data Processing Data Processing이 필요한 이유 좋은 quality의 데이터를 이용하면 좋은 mining 결과를 얻을 수 있다. .. 2022. 6. 12.
Outlier Discovery Outlier Discovery 다른 object와 특성이 상당히 다른(dissimilar한) object를 outlier라 한다. Outlier discovery는 large dataset에서 outlier를 찾는 것을 목표로 한다. 신용카드 사용 내역, 비정상 통신망 사용자, 돈을 많이 쓰는 고객, 의료 정보 등에 활용할 수 있다. Statistical Approach 데이터셋이 정규분포를 따른다고 가정하고 평균으로부터 일정 이상 떨어지는 objects들을 outlier로 간주한다. Multi attribute에서 활용하기 어렵다. 또한 정규분포를 가정으로 하지만 실제 데이터에서는 distribution을 알기 힘들다는 문제가 있다. Distance-based Approach 일정 거리(d) 내에 일.. 2022. 6. 12.