Requirements of Clustering
Clustering 알고리즘을 어떤 측면에서 평가할 것인가에 대한 기준이다.
모든 조건을 만족하는 알고리즘은 존재하지 않는다.
- Attribute type
- 다른 type의 attribute을 다룰 수 있는가
 - ability to deal with different types of attributes
 
 - Dynamic data
- dynamic data를 다룰 수 있는가
 - ability to handle dynamic data
 - 데이터가 변하는 동적 상황에서 clustering에 대한 overhead가 크지 않은가
 
 - Shape of cluster
- 임의의 모양의 cluster를 찾을 수 있는가
 - discovery of clusters with an arbitarray shape
 - 같은 cluster로 분류되야 함에도 알고리즘에 따라 쪼개려고 할 수 있다.
 - 별모양 등의 cluster는 찾지 못하고 원만 가능한 알고리즘이 존재한다.
 - KNN은 취약하다.
 
 - Domain knowledge/input parameter
- domain knowledge나 input parameter이 많지 않은가
 - minimal requirements for domain knowledge to determine input parameters
 - 배경지식이 필요하거나 parameter를 잘 세팅해야만 하는 알고리즘은 별로이다.
 
 - Noise/Outlier
- noise나 outliers을 다룰 수 있는가
 - able to deal with noises and outliers
 - noise나 outlier에 민감하거나 취약한 것은 별로이다.
 
 - Record order
- input record의 순서에 따라 결과가 변하지 않은가
 - insensitive to the order of input records
 - input record의 순서에 따라 결과가 변하는 것은 별로이다.
 - BIRCH는 input record의 순서에 따라 결과가 달라진다.
 
 - High dimensionality : 높은 차원에 대해서도 clustering이 가능한가
 - Scalability : data가 증가함에 따라 exponential하게 시간이 증가하면 안된다.
 - Constraints
- user가 제시한 constraint을 충족할 수 있는가
 - incorporation of user-specified constraints
 
 
Good Clustering
좋은 clustering의 조건은 다음과 같다.
- high intra-class similarity : class 내의 similairty는 높다.
 - low inter-class similarity : class 간의 similarity는 낮다.
 
Clustering의 quality의 결과는 아래의 요소에 의해 결정된다.
- 사용된 similarity measure
 - smililarity measure의 구현 방법
 - hidden pattern을 얼마나 잘 찾아내는지
 
Measure Clustering
Dissimilarity/similarity metric
Distance function으로 표현된 dissimilarity/similarity을 이용하여 clustering의 quality을 평가한다.
Distance function은 attribute type에 따라 다르게 설정된다.
다른 variable들에 대해 weigth을 달리 설정하여 계산할 수 있다.
Qaulity Function
두 object 사이의 similarity를 측정하는 distance function과 cluster의 goodness를 측정하는 quality function은 다르다.
얼마나 좋은지는 주관적이기 때문에 절대적으로 결정하기는 어렵다.
'Computer Science > Data Science' 카테고리의 다른 글
| [Cluster Analysis] Partitioning Algorithm (0) | 2022.06.06 | 
|---|---|
| [Cluster Analysis] Distance between Clusters (0) | 2022.06.05 | 
| Cluster Analysis (0) | 2022.06.05 | 
| [Measure Proximity] For Documents - using Cosine Similarity (0) | 2022.06.03 | 
| [Measure Proximity] For Mixed Attribute (0) | 2022.06.03 | 
			
											
											
											
											
											
											
											
											
댓글