본문 바로가기
Computer Science/Data Science

[K-Medoids] CLARA (Clustering LARge Applications)

by Gofo 2022. 6. 6.

CLARA

Partitioning clustering method인 k-medoids 기법 중 하나이다.

 

각 cluster를 대표하는 것으로 medoids(real-object)를 사용한다.

Medoids를 이용하기 때문에 outlier나 noise에 대해 robust하다.

 

샘플링을 통해 clustering을 함으로써 scalability가 떨어지는 PAM의 약점을 극복하였다.

 

방법

데이터셋에 대해 multiple sampling을 수행한다.

샘플링을 한번만 하면 샘플링 방법에 따라 결과가 달라지기 때문에 여러 번을 해서 best clustering 결과를 도출해낸다.

 

장단점

  • 장점 : 큰 데이터셋에 대해서 PAM을 적용할 수 있다.
  • 약점
    • sample size에 따라 효율성이 달라진다
      • sample로 몇개를 골라야 하는지를 결정해야 한다.
      • sample size ↑ → speed ↑ but quality ↓
    • 샘플에 대해 좋은 clustering이 전체 데이터에 대해서도 좋을지 보장할 수 없다.
      • 데이터가 편향되어 샘플링 될 수 있기 때문이다.
      • 그렇다고 샘플링을 잘 하는 것도 불가능하다.

 

 

댓글