Data Integration
여러 곳에 저장된 데이터들을 하나로 합치는 과정이다.
Schema Integration
Schema integration을 통해 다른 장소의 데이터들을 합칠 수 있다.
Schema integration은 schema를 보고 합치는 과정으로 schema level에서 같은 attirbute를 찾는다.
Problems
Redundancy나 inconsistency를 제거하면서 integration해야 하기 때문에 careful integration이 필요하다.
이들을 제거함으로써 mining의 speed나 quality를 개선할 수 있다.
- entity identification problem
- 서로 다른 데이터 source에 있는 같은 entity를 찾는 문제이다.
- 중복된 데이터를 찾아서 제거할 필요가 있다.
- detecting and resolving data value conflicts
- 같은 entity 임에도 다른 값을 가지는 경우이다.
- 단위나 scale의 다름으로 인해 발생할 수 있다.
Redundancy
데이터의 불필요한 중복을 redundancy라 한다.
Correlation analysis나 covariance analysis를 통해 redundancy attribute를 찾을 수 있다.
- Object identification
- data object의 측면
- 같은 entity를 나타내는 object이다.
- Derivable data
- object 내의 측면이다.
- 데이터 내에서 중복되는 attribute이다.
Correlation Analysis
Nominal Data에 대해 적용이 가능하다.
두 attribute 사이에 correlation이 존재하는지 확인할 수 있다.
Chi-Square Test
두 attribute 사이에 chi-square을 계산한다.
값이 커질 수록 correlated 되어있을 가능성이 높음(연관되어있음)을 의미한다.
Chi-square는 상관관계를 의미하는 것이지 인과관계를 의미하는 것은 아님에 주의해야 한다.
$x^2 = \Sigma \frac{(Observed - Expected)^2}{Expected}$
예시
Correlation Coefficient
= Pearson's product moment coefficient
Numeric data에 대해 적용 가능하다.
- $r_{A, B} > 0$ : A와 B는 양의 상관관계를 가진다.(비례관계)
- $r_{A, B} = 0$ : A와 B는 독립이다.(상관관계가 없다.)
- $r_{A, B} < 0$ : A와 B는 음의 상관관계를 가진다.(반비례관계)
Covariance
Numeric data에 대해 적용 가능하다.
Correlation coefficient와 유사하다.
- $Cov(A, B) > 0$ : A와 B는 양의 상관관계를 가진다.(비례관계)
- $Cov(A, B) = 0$ : A와 B는 독립이다.(상관관계가 없다.)
- $Cov(A, B) < 0$ : A와 B는 음의 상관관계를 가진다.(반비례관계)
예시
(A, B) = {(2, 5), (3, 8), (5, 10), (4, 11), (6, 14)} 라 하면,
- $E(A) = (2 + 3 + 5 + 4 + 6 ) / 5 = 4$
- $E(B) = (5+8+10+11+14) / 5 = 9.6$
- $Cov(A, B) = E(A \cdot B) - \bar{A}\bar{B} = (2\times5 + 3\times 8 + 5\times10 + 4 \times 11 + 6 \times 14)/5 - 4 \times 9.6 = 4 > 0$
- 따라서 A와 B는 양의 상관관계(비례관계)를 가진다.
'Computer Science > Data Science' 카테고리의 다른 글
[Data Reduction] Dimensionality Reduction (0) | 2022.06.12 |
---|---|
[Data Processing] Data Reduction (0) | 2022.06.12 |
[Data Processing] Data Cleaning (0) | 2022.06.12 |
Data Processing & Data Quality (0) | 2022.06.12 |
Outlier Discovery (0) | 2022.06.12 |
댓글