For Binary Attributes
Value로 0과 1의 값을 가지는 attribute를 binary attribute라 한다.
0과 1의 의미가 동등한지 다른지에 따라 symmetric/asymmetric binary로 나뉜다.
For Symmetric Binary
0과 1의 의미가 동일한 variable이다.
(distance) 두 variable이 다른 값을 갖는 경우를 센다.
$d(i, j) = \frac{r + s}{q + r+ s+t}$
For Asymmetric Binary
1의 의미가 0보다 중요한 variable이다.
(distance) 둘 다 0인 경우를 제외하고 두 variable이 다른 값을 갖는 경우를 센다.
아래 수식에서 분모에 둘 다 0인 경우가 빠져있다.
둘 다 0인 경우는 의미가 없기 때문이다.
$d(i, j) = \frac{r + s}{q + r + s}$
(similarity) Jaccard coefficient를 사용한다.
둘 다 0인 경우를 제외하고 같은 값을 갖는 경우를 센다.
$sim_{Jaccard}(i, j) = \frac{q}{q + r + s} = 1- d(i, j)$
예시
아래 데이터의 attribute가 모두 asymmetric이라 할 때 distance를 구한 것이다.
'Computer Science > Data Science' 카테고리의 다른 글
[Measure Proximity] For Ordinal Attribute (0) | 2022.06.03 |
---|---|
[Measure Proximity] For Numeric Data (0) | 2022.06.03 |
[Measure Proximity] For Nominal Attribute (0) | 2022.06.03 |
Measure Proximity (0) | 2022.06.03 |
Proximity : Similarity, Dissimilarity (0) | 2022.06.03 |
댓글