본문 바로가기
Computer Science/Data Science

[Measure Proximity] For Binary Attribute

by Gofo 2022. 6. 3.

For Binary Attributes

Value로 0과 1의 값을 가지는 attribute를 binary attribute라 한다.

0과 1의 의미가 동등한지 다른지에 따라 symmetric/asymmetric binary로 나뉜다.

 

For Symmetric Binary

0과 1의 의미가 동일한 variable이다.

(distance) 두 variable이 다른 값을 갖는 경우를 센다.

 

$d(i, j) = \frac{r + s}{q + r+ s+t}$

 

For Asymmetric Binary

1의 의미가 0보다 중요한 variable이다.

 

(distance) 둘 다 0인 경우를 제외하고 두 variable이 다른 값을 갖는 경우를 센다.

아래 수식에서 분모에 둘 다 0인 경우가 빠져있다.

둘 다 0인 경우는 의미가 없기 때문이다.

 

$d(i, j) = \frac{r + s}{q + r + s}$

 

 

(similarity) Jaccard coefficient를 사용한다.

둘 다 0인 경우를 제외하고 같은 값을 갖는 경우를 센다.

 

$sim_{Jaccard}(i, j) = \frac{q}{q + r + s} = 1- d(i, j)$

 

예시

아래 데이터의 attribute가 모두 asymmetric이라 할 때 distance를 구한 것이다.

 

 

댓글