본문 바로가기
Computer Science/Data Science

[Partitioning Clustering Method] K-Modes

by Gofo 2022. 6. 6.

K-Modes

K-means method의 변형으로 categorical data에 대해서도 적용이 가능하다.

Seed point로 mean(centroid) 대신 mode를 이용한다.

* mode : 가장 빈번하게 발생하는 데이터

 

Dissimilarity

Object 간의 dissimilairty는 simple matching을 이용하고, cluster 내의 dissimilarity는 각 object와 mode의 dissimilarity의 합으로 정의한다.

 

→ object간 dissimilairty = 불일치하는 attribute의 수

 

 

방법

  1. 가상의 object(mode Q) 생성 : cluster 내에서 가장 빈번하게 발생하는 attribute들을 골라서 가상의 object를 만든다.
  2. Mode와의 dissmiliarity 계산 & reassign
  3. Mode update
    • frequency-based method를 이용하여 cluster의 modes를 update한다.
    • 가상의 object Q의 각 attribute는 cluster 내에서 가장 빈번하게 발생하는 값으로 한다.

 

* real data에서는 numeric data와 categorical data가 혼재되어있기 때문에 k-prototype method를 사용하기도 한다.

 

 

댓글