📝 목차
Standaradizing
Numeric data는 scale이 다를 수 있다.
따라서 정규화(standaridizing)이 필요하다.
Z-Score
z−score:z=x−μσ
* x : 원본 데이터
* μ : mean of population
* σ : standard deviation
Mean Absolute Deviation
Standard deviation은 평균과 차이가 많이 나는 것을 강조한다.
따라서 outlier에 영향을 많이 받게 된다.
때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다.
deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다.
mf=1n(x1f+x2f+...+xnf)
sf=1n(|x1f−mf|+|x2f−mf|+...+|xnf−mf|)
z−score:zif=xif−mfsf
Minkowski Distance
Numeric data의 distance를 구하기 위해 주로 minkowski distance를 이용한다.
d(i,j)=h√|xi1−xk1|h+|xi2−xj2|h+...+|xip−xjp|h
Metric
Minkowski distance는 metirc이다.
아래 특징들을 모두 만족하는 distance를 metric이라 한다.
- positive definiteness
- 항상 양의 값을 가지고 자기 자신에 대해서는 0을 가짐
- i≠j,d(i,i)=0→d(i,j)>0
- symmetry : d(i,j)=d(j,i)
- triangle inequality
- 삼각형의 한 변의 길이는 다른 변의 길이의 합보다 작아야 한다.
- d(i,j)≤d(i,k)+d(k,j)
Manhattan, Euclidean, Supremum Distance
주로 사용되는 mahattan, euclidean distance는 minkowski distance의 special case이다.
- h = 1 : Manhattan distance
- = L1 norm distance, city block distance
- d(i,j)=|xi1−xj1|+|xi2−xj2|+...+|xip−xjp|
- h = 2 : Euclidean distance
- = L2 norm distance
- d(i,j)=√(xi1−xj1)2+(xi2−xj2)2+...+(xip−xjp)2
- h = ∞ : Supremum distance
- = Lmax norm distance, L∞ distance
- 각 attribute의 차이 중 가장 큰 것을 distance로 사용한다.
- d(i,j)=lim
예시

'Computer Science > Data Science' 카테고리의 다른 글
[Measure Proximity] For Mixed Attribute (0) | 2022.06.03 |
---|---|
[Measure Proximity] For Ordinal Attribute (0) | 2022.06.03 |
[Measure Proximity] For Binary Attribute (0) | 2022.06.03 |
[Measure Proximity] For Nominal Attribute (0) | 2022.06.03 |
Measure Proximity (0) | 2022.06.03 |
댓글