본문 바로가기
Computer Science/Data Science

[Data Processing] Data Integration

by Gofo 2022. 6. 12.

Data Integration

여러 곳에 저장된 데이터들을 하나로 합치는 과정이다.

 

Schema Integration

Schema integration을 통해 다른 장소의 데이터들을 합칠 수 있다.

Schema integration은 schema를 보고 합치는 과정으로 schema level에서 같은 attirbute를 찾는다.

 

Problems

Redundancy나 inconsistency를 제거하면서 integration해야 하기 때문에 careful integration이 필요하다.

이들을 제거함으로써 mining의 speed나 quality를 개선할 수 있다.

 

  • entity identification problem
    • 서로 다른 데이터 source에 있는 같은 entity를 찾는 문제이다.
    • 중복된 데이터를 찾아서 제거할 필요가 있다.
  • detecting and resolving data value conflicts
    • 같은 entity 임에도 다른 값을 가지는 경우이다.
    • 단위나 scale의 다름으로 인해 발생할 수 있다.

 

Redundancy

데이터의 불필요한 중복을 redundancy라 한다.

Correlation analysis나 covariance analysis를 통해 redundancy attribute를 찾을 수 있다.

 

  • Object identification
    • data object의 측면
    • 같은 entity를 나타내는 object이다.
  • Derivable data
    • object 내의 측면이다.
    • 데이터 내에서 중복되는 attribute이다.

 


Correlation Analysis

Nominal Data에 대해 적용이 가능하다.

두 attribute 사이에 correlation이 존재하는지 확인할 수 있다.

 

Chi-Square Test

두 attribute 사이에 chi-square을 계산한다.

값이 커질 수록 correlated 되어있을 가능성이 높음(연관되어있음)을 의미한다.

 

Chi-square는 상관관계를 의미하는 것이지 인과관계를 의미하는 것은 아님에 주의해야 한다.

 

$x^2 = \Sigma \frac{(Observed - Expected)^2}{Expected}$

 

예시

 

Correlation Coefficient

= Pearson's product moment coefficient

 

Numeric data에 대해 적용 가능하다.

 

  • $r_{A, B} > 0$ : A와 B는 양의 상관관계를 가진다.(비례관계)
  • $r_{A, B} = 0$ : A와 B는 독립이다.(상관관계가 없다.)
  • $r_{A, B} < 0$ : A와 B는 음의 상관관계를 가진다.(반비례관계)

 

Covariance

Numeric data에 대해 적용 가능하다.

 

Correlation coefficient와 유사하다.

 

  • $Cov(A, B) > 0$ : A와 B는 양의 상관관계를 가진다.(비례관계)
  • $Cov(A, B) = 0$ : A와 B는 독립이다.(상관관계가 없다.)
  • $Cov(A, B) < 0$ : A와 B는 음의 상관관계를 가진다.(반비례관계)

 

예시

(A, B) = {(2, 5), (3, 8), (5, 10), (4, 11), (6, 14)} 라 하면,

  • $E(A) = (2 + 3 + 5 + 4 + 6 ) / 5 = 4$
  • $E(B) = (5+8+10+11+14) / 5 = 9.6$
  • $Cov(A, B) = E(A \cdot B) - \bar{A}\bar{B} = (2\times5 + 3\times 8 + 5\times10 + 4 \times 11 + 6 \times 14)/5 - 4 \times 9.6 = 4 > 0$
  • 따라서 A와 B는 양의 상관관계(비례관계)를 가진다.

 

 

 

'Computer Science > Data Science' 카테고리의 다른 글

[Data Reduction] Dimensionality Reduction  (0) 2022.06.12
[Data Processing] Data Reduction  (0) 2022.06.12
[Data Processing] Data Cleaning  (0) 2022.06.12
Data Processing & Data Quality  (0) 2022.06.12
Outlier Discovery  (0) 2022.06.12

댓글