Processing math: 100%
본문 바로가기
Computer Science/Data Science

[Measure Proximity] For Documents - using Cosine Similarity

by Gofo 2022. 6. 3.

📝 목차



Cosine Similarity

Similarity of Document

Document는 각 word의 빈도수를 벡터로 표현함으로써 수많은 attribute로 표현할 수 있다.

 

Document 간의 similiarity를 계산할 때 euclidean distance를 이용하면 방향성을 고려하지 못하고 크기만 고려하게 된다.

때문에 아래와 같이 실제로는 A의 유사도가 더 큰 상황임에도 B가 더 유사한 경우라고 판단한다.

 

Cosine Similarity

Cosine similarity는 방향성을 고려하여 similarity를 계산한다.

값이 클 수록 더 유사함을 의미한다.

 

cos(d1,d2)=(d1d2)||d1||×||d2||

* :  vector의 dot product → sum of entry-wise multiply

 

예시

 

댓글