Measure for Data Qaulity
- Accuracy : 데이터가 정확한다.
- Completeness : missing value가 적은가
- Consistency
- 데이터가 일관성 있는가
- 데이터는 여러 곳에 저장되어 있을 수 있는데 데이터 수정 시 일부 테이블의 데이터만 수정하는 경우가 발생할 수 있다.
- Dangling : 이곳에 데이터가 있다했는데 막상 가보니 존재하지 않는다.
- Timeliness : 얼마나 최신의 정보인가
- Believability : 데이터를 얼마나 신뢰할 수 있는가
- Interpretability : 얼마나 이해하기 쉬운 데이터인가
Data Processing
Data Processing이 필요한 이유
좋은 quality의 데이터를 이용하면 좋은 mining 결과를 얻을 수 있다.
따라서 data의 quality를 높일 필요가 있다.
Data processing을 통해 data의 quality를 높일 수 있기 때문에 data processing이 필요하다.
Major Tasks in Data Processing
- data cleaning
- missing value 채우기
- noisy data를 smooth
- outlier 발견 & 제거
- inconsistency 해결
- data integration
- data mining에서 여러 DB의 데이터를 합쳐서 하나의 data warehouse를 생성하는 과정을 data integration이라 한다.
- 여러 DB로 부터 하나의 데이터를 만드는 과정이다.
- 여러 DB에 존재하는 데이터들은 inconsistent하기 쉽다.
- data reduction
- 마이닝의 결과는 동일하게 하면서 데이터의 크기를 줄이는 작업이다.
- dimensionality reduction : 정보를 유지하면서 attribute(dimension)을 줄임
- numerosity reduction : 데이터를 수식으로 표현함으로써 크기를 줄임
- data compression : 하나의 object를 줄임
- data transformation & data discretization
- normalization : scale이 다른 data의 scale을 맞춰줌
- ceoncept hierarchy generation
- continuous data를 discrete한 data로 만드는 작업이다.
- frequency 파악을 위해서 discrete한 데이터가 필요하다.
'Computer Science > Data Science' 카테고리의 다른 글
[Data Processing] Data Integration (0) | 2022.06.12 |
---|---|
[Data Processing] Data Cleaning (0) | 2022.06.12 |
Outlier Discovery (0) | 2022.06.12 |
[Density-based Clustering] OPTICS - Ordering Objects (0) | 2022.06.12 |
[Density-based Clustering] DBSCAN (0) | 2022.06.12 |
댓글