Standaradizing
Numeric data는 scale이 다를 수 있다.
따라서 정규화(standaridizing)이 필요하다.
Z-Score
$z-score : z = \frac{x - \mu}{\sigma}$
* $x$ : 원본 데이터
* $\mu$ : mean of population
* $\sigma$ : standard deviation
Mean Absolute Deviation
Standard deviation은 평균과 차이가 많이 나는 것을 강조한다.
따라서 outlier에 영향을 많이 받게 된다.
때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다.
deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다.
$m_f = \frac{1}{n}(x_{1f} + x_{2f} + ... + x_{nf})$
$s_f = \frac{1}{n}(|x_{1f}-m_f| + |x_{2f} - m_f| + ... + |x_{nf}-m_f|)$
$z-score : z_{if} = \frac{x_{if} - m_f}{s_f}$
Minkowski Distance
Numeric data의 distance를 구하기 위해 주로 minkowski distance를 이용한다.
$d(i, j) = ^h \sqrt{|x_{i1} - x_{k1}|^h + |x_{i2} - x{j2}|^h + ... + |x_{ip} - x_{jp}|^h }$
Metric
Minkowski distance는 metirc이다.
아래 특징들을 모두 만족하는 distance를 metric이라 한다.
- positive definiteness
- 항상 양의 값을 가지고 자기 자신에 대해서는 0을 가짐
- $i \neq j, d(i, i) = 0 \rightarrow d(i, j) > 0$
- symmetry : $d(i, j) = d(j, i)$
- triangle inequality
- 삼각형의 한 변의 길이는 다른 변의 길이의 합보다 작아야 한다.
- $d(i, j) \leq d(i, k) + d(k, j)$
Manhattan, Euclidean, Supremum Distance
주로 사용되는 mahattan, euclidean distance는 minkowski distance의 special case이다.
- h = 1 : Manhattan distance
- = $L_1$ norm distance, city block distance
- $d(i, j) = |x_{i1} - x{j1} | + |x_{i2} - x_{j2}| + ... + |x_{ip} - x_{jp}|$
- h = 2 : Euclidean distance
- = $L_2$ norm distance
- $d(i, j) = \sqrt{(x_{i1} - x_{j1})^2 + (x_{i2} - x_{j2})^2 + ... + (x_{ip} - x_{jp})^2}$
- h = ∞ : Supremum distance
- = $L_{max}$ norm distance, $L_{\infty}$ distance
- 각 attribute의 차이 중 가장 큰 것을 distance로 사용한다.
- $d(i, j) = \displaystyle \lim _{h \to \infty}(\sum ^p _{f=1} |x_{if} - x_{jf}|^h)^{\frac{1}{h}} = max^p _f |x_{if} - x_{jf}|$
예시
'Computer Science > Data Science' 카테고리의 다른 글
[Measure Proximity] For Mixed Attribute (0) | 2022.06.03 |
---|---|
[Measure Proximity] For Ordinal Attribute (0) | 2022.06.03 |
[Measure Proximity] For Binary Attribute (0) | 2022.06.03 |
[Measure Proximity] For Nominal Attribute (0) | 2022.06.03 |
Measure Proximity (0) | 2022.06.03 |
댓글