Processing math: 94%
본문 바로가기
Computer Science/Data Science

[Measure Proximity] For Numeric Data

by Gofo 2022. 6. 3.

📝 목차



Standaradizing

Numeric data는 scale이 다를 수 있다.

따라서 정규화(standaridizing)이 필요하다.

 

Z-Score

zscore:z=xμσ

* x : 원본 데이터

* μ : mean of population

* σ : standard deviation

 

Mean Absolute Deviation

Standard deviation은 평균과 차이가 많이 나는 것을 강조한다.

따라서 outlier에 영향을 많이 받게 된다.

때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다.

 

deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다.

mf=1n(x1f+x2f+...+xnf)

sf=1n(|x1fmf|+|x2fmf|+...+|xnfmf|)

 

zscore:zif=xifmfsf

 


Minkowski Distance

Numeric data의 distance를 구하기 위해 주로 minkowski distance를 이용한다.

 

d(i,j)=h|xi1xk1|h+|xi2xj2|h+...+|xipxjp|h

 

 

Metric

Minkowski distance는 metirc이다.

 

아래 특징들을 모두 만족하는 distance를 metric이라 한다.

  • positive definiteness
    • 항상 양의 값을 가지고 자기 자신에 대해서는 0을 가짐 
    • ij,d(i,i)=0d(i,j)>0
  • symmetry : d(i,j)=d(j,i)
  • triangle inequality
    • 삼각형의 한 변의 길이는 다른 변의 길이의 합보다 작아야 한다. 
    • d(i,j)d(i,k)+d(k,j)

 

Manhattan, Euclidean, Supremum Distance

주로 사용되는 mahattan, euclidean distance는 minkowski distance의 special case이다.

 

  • h = 1 : Manhattan distance
    • = L1 norm distance, city block distance
    • d(i,j)=|xi1xj1|+|xi2xj2|+...+|xipxjp|
  • h = 2 : Euclidean distance
    • = L2 norm distance
    • d(i,j)=(xi1xj1)2+(xi2xj2)2+...+(xipxjp)2
  • h = ∞ : Supremum distance
    • = Lmax norm distance, L distance
    • 각 attribute의 차이 중 가장 큰 것을 distance로 사용한다.
    • d(i,j)=lim

 

예시

 

 

 

댓글