K-Modes
K-means method의 변형으로 categorical data에 대해서도 적용이 가능하다.
Seed point로 mean(centroid) 대신 mode를 이용한다.
* mode : 가장 빈번하게 발생하는 데이터
Dissimilarity
Object 간의 dissimilairty는 simple matching을 이용하고, cluster 내의 dissimilarity는 각 object와 mode의 dissimilarity의 합으로 정의한다.
→ object간 dissimilairty = 불일치하는 attribute의 수
방법
- 가상의 object(mode Q) 생성 : cluster 내에서 가장 빈번하게 발생하는 attribute들을 골라서 가상의 object를 만든다.
- Mode와의 dissmiliarity 계산 & reassign
- Mode update
- frequency-based method를 이용하여 cluster의 modes를 update한다.
- 가상의 object Q의 각 attribute는 cluster 내에서 가장 빈번하게 발생하는 값으로 한다.
* real data에서는 numeric data와 categorical data가 혼재되어있기 때문에 k-prototype method를 사용하기도 한다.
'Computer Science > Data Science' 카테고리의 다른 글
[K-Medoids] PAM (Partitioning Around Medoids) (0) | 2022.06.06 |
---|---|
[Partitioning Clustering Method] K-Medoids (0) | 2022.06.06 |
[Partitioning Clustering Method] K-Means (0) | 2022.06.06 |
[Cluster Analysis] Partitioning Algorithm (0) | 2022.06.06 |
[Cluster Analysis] Distance between Clusters (0) | 2022.06.05 |
댓글