Processing math: 100%
본문 바로가기
Computer Science/Data Science

[Cluster Analysis] Distance between Clusters

by Gofo 2022. 6. 5.

📝 목차



Distance between Clusters

Hierarchical clustering 할 때 cluster의 거리으로 어떤 것을 선택하는지에 따라 결과가 달라진다.

  • single link
    • dis(Ki,Kj)=min(tip,tjq) 
    • cluster 간 object pair의 거리 중 가장 가까운 것을 cluster의 거리로 취급한다.
  • complete link
    • dis(Ki,Kj)=max(tip,tjq) 
    • cluster 간 object pair의 거리 중 가장 먼 것을 cluster의 거리로 취급한다.
  • average
    • dis(Ki,Kj)=avg(tip,tjq)
    • cluster 간 모든 object pair의 거리의 평균을 cluster의 거리로 취급한다.
  • centorid
    • dis(Ki,Kj)=dis(Ci,Cj) 
    • cluster의 centroid의 거리를 cluster의 거리로 취급한다.
    • 위의 방법들은 O(n2)이지만 centroid를 이용하면 O(N1+N2)라서 cost가 작다.
  • mediod
    • dis(Ki,Kj)=dis(Mi,Mj)
    • cluster 간 mediod의 거리를 cluster의 거리로 취급한다.
    • real object를 대표값으로 설정한다.
    • outlier의 영향이 작다.

 


Centroid, Radius, Diameter

Numerical dataset에 대해 적용하는 기준이다.

 

  • centroid (무게 중심)
    • Cm=Ni=1(tip)N 
    • cluter의 중심이다.
    • 각 dimension에서의 평균값이다.
  • radius (반경)
    • Rm=Ni=1(tipcm)2N
    • 각 지점에서 centroid까지 차이의 제곱의 평균에 root를 씌운 것이다.
    • 표준편차와 유사하다. (표준편차 = E(X2)(E(X))2)
  • diameter (지름)
    • Dm=Ni=1Ni=1(tiptiq)2N(N1) 
    • 가능한 모든 object pair의 거리의 평균이다.
    • 위 수식에서는 자기 자신을 포함하지 않아 N(N1)로 나눴지만 자기 자신까지 포함하면 N2로 나눠도 된다.
    • 수학적으로는 radius의 2배이지만 여기서는 다르다.

 

 

 

 

댓글