본문 바로가기
Computer Science/Data Science

[Measure Proximity] For Numeric Data

by Gofo 2022. 6. 3.

Standaradizing

Numeric data는 scale이 다를 수 있다.

따라서 정규화(standaridizing)이 필요하다.

 

Z-Score

$z-score : z = \frac{x - \mu}{\sigma}$

* $x$ : 원본 데이터

* $\mu$ : mean of population

* $\sigma$ : standard deviation

 

Mean Absolute Deviation

Standard deviation은 평균과 차이가 많이 나는 것을 강조한다.

따라서 outlier에 영향을 많이 받게 된다.

때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다.

 

deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다.

$m_f = \frac{1}{n}(x_{1f} + x_{2f} + ... + x_{nf})$

$s_f = \frac{1}{n}(|x_{1f}-m_f| + |x_{2f} - m_f| + ... + |x_{nf}-m_f|)$

 

$z-score : z_{if} = \frac{x_{if} - m_f}{s_f}$

 


Minkowski Distance

Numeric data의 distance를 구하기 위해 주로 minkowski distance를 이용한다.

 

$d(i, j) = ^h \sqrt{|x_{i1} - x_{k1}|^h + |x_{i2} - x{j2}|^h + ... + |x_{ip} - x_{jp}|^h }$

 

 

Metric

Minkowski distance는 metirc이다.

 

아래 특징들을 모두 만족하는 distance를 metric이라 한다.

  • positive definiteness
    • 항상 양의 값을 가지고 자기 자신에 대해서는 0을 가짐 
    • $i \neq j, d(i, i) = 0 \rightarrow d(i, j) > 0$
  • symmetry : $d(i, j) = d(j, i)$
  • triangle inequality
    • 삼각형의 한 변의 길이는 다른 변의 길이의 합보다 작아야 한다. 
    • $d(i, j) \leq d(i, k) + d(k, j)$

 

Manhattan, Euclidean, Supremum Distance

주로 사용되는 mahattan, euclidean distance는 minkowski distance의 special case이다.

 

  • h = 1 : Manhattan distance
    • = $L_1$ norm distance, city block distance
    • $d(i, j) = |x_{i1} - x{j1} | + |x_{i2} - x_{j2}| + ... + |x_{ip} - x_{jp}|$
  • h = 2 : Euclidean distance
    • = $L_2$ norm distance
    • $d(i, j) = \sqrt{(x_{i1} - x_{j1})^2 + (x_{i2} - x_{j2})^2 + ... + (x_{ip} - x_{jp})^2}$
  • h = ∞ : Supremum distance
    • = $L_{max}$ norm distance, $L_{\infty}$ distance
    • 각 attribute의 차이 중 가장 큰 것을 distance로 사용한다.
    • $d(i, j) = \displaystyle \lim _{h \to \infty}(\sum ^p _{f=1} |x_{if} - x_{jf}|^h)^{\frac{1}{h}} = max^p _f |x_{if} - x_{jf}|$

 

예시

 

 

 

댓글