본문 바로가기
Computer Science/Data Science

Data Processing & Data Quality

by Gofo 2022. 6. 12.

Measure for Data Qaulity

  • Accuracy : 데이터가 정확한다.
  • Completeness : missing value가 적은가
  • Consistency
    • 데이터가 일관성 있는가
    • 데이터는 여러 곳에 저장되어 있을 수 있는데 데이터 수정 시 일부 테이블의 데이터만 수정하는 경우가 발생할 수 있다.
    • Dangling : 이곳에 데이터가 있다했는데 막상 가보니 존재하지 않는다.
  • Timeliness : 얼마나 최신의 정보인가
  • Believability : 데이터를 얼마나 신뢰할 수 있는가
  • Interpretability : 얼마나 이해하기 쉬운 데이터인가

 


Data Processing

Data Processing이 필요한 이유

좋은 quality의 데이터를 이용하면 좋은 mining 결과를 얻을 수 있다.

따라서 data의 quality를 높일 필요가 있다.

 

Data processing을 통해 data의 quality를 높일 수 있기 때문에 data processing이 필요하다.

 

Major Tasks in Data Processing

  • data cleaning
    • missing value 채우기
    • noisy data를 smooth
    • outlier 발견 & 제거
    • inconsistency 해결
  • data integration
    • data mining에서 여러 DB의 데이터를 합쳐서 하나의 data warehouse를 생성하는 과정을 data integration이라 한다.
    • 여러 DB로 부터 하나의 데이터를 만드는 과정이다.
    • 여러 DB에 존재하는 데이터들은 inconsistent하기 쉽다.
  • data reduction
    • 마이닝의 결과는 동일하게 하면서 데이터의 크기를 줄이는 작업이다.
    • dimensionality reduction : 정보를 유지하면서 attribute(dimension)을 줄임
    • numerosity reduction : 데이터를 수식으로 표현함으로써 크기를 줄임
    • data compression : 하나의 object를 줄임
  • data transformation & data discretization
    • normalization : scale이 다른 data의 scale을 맞춰줌
    • ceoncept hierarchy generation
      • continuous data를 discrete한 data로 만드는 작업이다.
      • frequency 파악을 위해서 discrete한 데이터가 필요하다.

 

댓글