본문 바로가기
Computer Science/Data Science

[Measure Proximity] For Documents - using Cosine Similarity

by Gofo 2022. 6. 3.

Cosine Similarity

Similarity of Document

Document는 각 word의 빈도수를 벡터로 표현함으로써 수많은 attribute로 표현할 수 있다.

 

Document 간의 similiarity를 계산할 때 euclidean distance를 이용하면 방향성을 고려하지 못하고 크기만 고려하게 된다.

때문에 아래와 같이 실제로는 A의 유사도가 더 큰 상황임에도 B가 더 유사한 경우라고 판단한다.

 

Cosine Similarity

Cosine similarity는 방향성을 고려하여 similarity를 계산한다.

값이 클 수록 더 유사함을 의미한다.

 

$cos(d_1, d_2) = \frac{(d_1 \cdot d_2)}{ ||d_1 || \times ||d_2||}$

* $\cdot$ :  vector의 dot product → sum of entry-wise multiply

 

예시

 

댓글