본문 바로가기

Computer Science 254

[Measure Proximity] For Ordinal Attribute Proximity Measure For Ordinal Attribute Value 간 순서가 존재 하지만 차이는 정의되어있지 않은 variable이다. Interval-scaled로 변환하여 distance를 계산할 수 있다. 각 attribute의 값을 rank 순서대로 변환한다. 변환된 variable을 0~1 사이의 값으로 매핑한다. $r_{if} \in \{1, 2, ... , M_f\}$ $z_if = \frac{r_{if} - 1}{M_f - 1}$ interval-scaled variable에 대해 dissimilarity를 계산하는 방식대로 distance를 계산한다. 2022. 6. 3.
[Measure Proximity] For Numeric Data Standaradizing Numeric data는 scale이 다를 수 있다. 따라서 정규화(standaridizing)이 필요하다. Z-Score $z-score : z = \frac{x - \mu}{\sigma}$ * $x$ : 원본 데이터 * $\mu$ : mean of population * $\sigma$ : standard deviation Mean Absolute Deviation Standard deviation은 평균과 차이가 많이 나는 것을 강조한다. 따라서 outlier에 영향을 많이 받게 된다. 때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다. deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다. $m_f.. 2022. 6. 3.
[Measure Proximity] For Binary Attribute For Binary Attributes Value로 0과 1의 값을 가지는 attribute를 binary attribute라 한다. 0과 1의 의미가 동등한지 다른지에 따라 symmetric/asymmetric binary로 나뉜다. For Symmetric Binary 0과 1의 의미가 동일한 variable이다. (distance) 두 variable이 다른 값을 갖는 경우를 센다. $d(i, j) = \frac{r + s}{q + r+ s+t}$ For Asymmetric Binary 1의 의미가 0보다 중요한 variable이다. (distance) 둘 다 0인 경우를 제외하고 두 variable이 다른 값을 갖는 경우를 센다. 아래 수식에서 분모에 둘 다 0인 경우가 빠져있다. 둘 다 0인 경.. 2022. 6. 3.
[Measure Proximity] For Nominal Attribute For Nominal Attributes 유한한 수의 value를 가지고 각 value 사이에 대소 관계가 없는 attribute를 nominal attribute라 한다. * nominal : noun(명사)의 형용사형 Simple matching과 binary attribute를 이용하는 방법이 존재한다. Simple Matching (distance) 두 개의 object 중 다른 attribute를 가지는 개수를 센다. $d(i, j) = \frac{p-m}{p}$ ※ $p$ : 전체 variable의 수, $m$ : 일치하는 value의 수 Use Binary Attribute M개의 nomial state를 가질 때 binary attribute로 변환하고 각 attribute에 대해 prox.. 2022. 6. 3.
Measure Proximity Measure Proximity Data의 similarity 혹은 dissimilarity를 proximity라 한다. Attribute의 type에 따라 similarity를 계산하는 방법이 다르다. nominal = categories : 유한한 수의 value를 가지고 각 value 사이에 대소 관계가 없음 binary : 0 or 1 symmetric binary : 두 value의 중요도가 동일 asymmetric binary : 두 value의 중요도가 다름 ordinal : value 간 순서가 존재하지만 순서 간의 크기는 정해져 있지 않음 numeric = quantitative : value 간 순서가 존재하고 크기를 비교할 수 있다. ratio-scaled : value 간 크기를 대.. 2022. 6. 3.