Cosine Similarity
Similarity of Document
Document는 각 word의 빈도수를 벡터로 표현함으로써 수많은 attribute로 표현할 수 있다.
Document 간의 similiarity를 계산할 때 euclidean distance를 이용하면 방향성을 고려하지 못하고 크기만 고려하게 된다.
때문에 아래와 같이 실제로는 A의 유사도가 더 큰 상황임에도 B가 더 유사한 경우라고 판단한다.
Cosine Similarity
Cosine similarity는 방향성을 고려하여 similarity를 계산한다.
값이 클 수록 더 유사함을 의미한다.
$cos(d_1, d_2) = \frac{(d_1 \cdot d_2)}{ ||d_1 || \times ||d_2||}$
* $\cdot$ : vector의 dot product → sum of entry-wise multiply
예시
'Computer Science > Data Science' 카테고리의 다른 글
[Cluster Analysis] Measure Clustering (0) | 2022.06.05 |
---|---|
Cluster Analysis (0) | 2022.06.05 |
[Measure Proximity] For Mixed Attribute (0) | 2022.06.03 |
[Measure Proximity] For Ordinal Attribute (0) | 2022.06.03 |
[Measure Proximity] For Numeric Data (0) | 2022.06.03 |
댓글