본문 바로가기

Computer Science/Data Science 86

[Cluster Analysis] Measure Clustering Requirements of Clustering Clustering 알고리즘을 어떤 측면에서 평가할 것인가에 대한 기준이다. 모든 조건을 만족하는 알고리즘은 존재하지 않는다. Attribute type 다른 type의 attribute을 다룰 수 있는가 ability to deal with different types of attributes Dynamic data dynamic data를 다룰 수 있는가 ability to handle dynamic data 데이터가 변하는 동적 상황에서 clustering에 대한 overhead가 크지 않은가 Shape of cluster 임의의 모양의 cluster를 찾을 수 있는가 discovery of clusters with an arbitarray shape.. 2022. 6. 5.
Cluster Analysis Cluster Analysis Cluster 비슷한 특성을 가지는 data object들의 집합이다. 비슷한 object들은 같은 cluster 안에 존재해야 하며, 다른 object들은 다른 cluster에 존재하는 것이 좋다. Object의 특성이 유사한지 다른지는 data의 similiarity(dissimilairty)로 판단한다. Cluster Analysis 정의되어있는 데이터 간 similarity를 찾아내고 비슷한 data object끼리 그룹화하는 작업을 cluster analysis라 한다. Clustering 하는 작업을 의미한다. Cluster analysis를 위해서는 similarity가 정의되어 있어야 한다. Similarity는 data type에 따라 정의가 달라질 수 있.. 2022. 6. 5.
[Measure Proximity] For Documents - using Cosine Similarity Cosine Similarity Similarity of Document Document는 각 word의 빈도수를 벡터로 표현함으로써 수많은 attribute로 표현할 수 있다. Document 간의 similiarity를 계산할 때 euclidean distance를 이용하면 방향성을 고려하지 못하고 크기만 고려하게 된다. 때문에 아래와 같이 실제로는 A의 유사도가 더 큰 상황임에도 B가 더 유사한 경우라고 판단한다. Cosine Similarity Cosine similarity는 방향성을 고려하여 similarity를 계산한다. 값이 클 수록 더 유사함을 의미한다. $cos(d_1, d_2) = \frac{(d_1 \cdot d_2)}{ ||d_1 || \times ||d_2||}$ * $\cdot.. 2022. 6. 3.
[Measure Proximity] For Mixed Attribute Proximity Measure for Mixed Attributes Type 각 타입의 attribute에 대해 distance를 구하고 이에 대해 weighted avearge를 취한다. 각 타입별 Distance f가 binary이거나 nominal 일 때, $x_{if} = x_{jf} \rightarrow d_{ij}^{(f)} = 0$ else $d_{ij} ^{(f)} = 1$ f가 numeric 일 때, normalized distance 사용 f가 ordinal 일 때 rank 순서대로 $r_{if}$을 매기고 interval-scaled 처럼 $z_{if} = \frac{r_{if} - 1}{M_f - 1}$ 계산 2022. 6. 3.
[Measure Proximity] For Ordinal Attribute Proximity Measure For Ordinal Attribute Value 간 순서가 존재 하지만 차이는 정의되어있지 않은 variable이다. Interval-scaled로 변환하여 distance를 계산할 수 있다. 각 attribute의 값을 rank 순서대로 변환한다. 변환된 variable을 0~1 사이의 값으로 매핑한다. $r_{if} \in \{1, 2, ... , M_f\}$ $z_if = \frac{r_{if} - 1}{M_f - 1}$ interval-scaled variable에 대해 dissimilarity를 계산하는 방식대로 distance를 계산한다. 2022. 6. 3.