본문 바로가기
Computer Science/Data Science

Proximity : Similarity, Dissimilarity

by Gofo 2022. 6. 3.

Proximity

두 개의 object가 얼마나 많이 닮았는가를 나타내는 지표를 proximity라 한다.

Proximity로써 similarity/dissimilarity을 사용하고 문제마다 정의가 다르다.

 

Similarity, Dissimilarity, Proximity

Similarity 값이 높을 수록 많이 닮은 것이고 반대로 dissimilarity가 높을 수록 닮지 않은 것이다.

즉, Similarity가 높을 수록 dissimilarity가 낮아진다.

 

Similarity와 dissimilarity는 반대를 바라보지만 의미하는 것은 동일하다.

 

  • Similarity
    • 높을수록 많이 닮음을 의미 (how much alike)
    • 주로 0~1의 값을 가진다.
  • Dissimilarity
    • 높을 수록 많이 닮지 않음을 의미 (how much different)
    • 0~ 의 값을 가진다.
      • minimum value는 주로 0으로 설정한다.
      • 최댓값은 정해져있지 않기도 한다.
    • 예시 : distance
  • Proximity
    • similarity 혹은 dissimilarity를 지칭하며 문제마다 정의가 다르다.

 

표현

  • data matrix
    • 각 object를 p-dims의 matrix로 표현한다.
    • n개의data point(row)와 p개의 keys(attribute value, column)의 matrix로 표현한다.
    • two modes : row와 column의 의미가 다르다.
  • dissimilarity matrix (similarity matrix)
    • 데이터의 similarity(dissimilarity)의 관계를 n*n matrix로 표현한다.
    • n개의 data point로 row와 column을 나타낸다.
    • single mode (항상은 아님)
      • symmetric한 경우이다. (row와 column의 의미가 같음)
      • triangular matrix로 표현할 수 있다. → 대각선 위쪽으로 표현하지 않는다.
    • 일방통행이 있는 경로와 같이 assymmetric한 경우도 존재한다.

 

 

 

댓글