본문 바로가기

Computer Science/Data Science 86

[Measure Proximity] For Numeric Data Standaradizing Numeric data는 scale이 다를 수 있다. 따라서 정규화(standaridizing)이 필요하다. Z-Score $z-score : z = \frac{x - \mu}{\sigma}$ * $x$ : 원본 데이터 * $\mu$ : mean of population * $\sigma$ : standard deviation Mean Absolute Deviation Standard deviation은 평균과 차이가 많이 나는 것을 강조한다. 따라서 outlier에 영향을 많이 받게 된다. 때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다. deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다. $m_f.. 2022. 6. 3.
[Measure Proximity] For Binary Attribute For Binary Attributes Value로 0과 1의 값을 가지는 attribute를 binary attribute라 한다. 0과 1의 의미가 동등한지 다른지에 따라 symmetric/asymmetric binary로 나뉜다. For Symmetric Binary 0과 1의 의미가 동일한 variable이다. (distance) 두 variable이 다른 값을 갖는 경우를 센다. $d(i, j) = \frac{r + s}{q + r+ s+t}$ For Asymmetric Binary 1의 의미가 0보다 중요한 variable이다. (distance) 둘 다 0인 경우를 제외하고 두 variable이 다른 값을 갖는 경우를 센다. 아래 수식에서 분모에 둘 다 0인 경우가 빠져있다. 둘 다 0인 경.. 2022. 6. 3.
[Measure Proximity] For Nominal Attribute For Nominal Attributes 유한한 수의 value를 가지고 각 value 사이에 대소 관계가 없는 attribute를 nominal attribute라 한다. * nominal : noun(명사)의 형용사형 Simple matching과 binary attribute를 이용하는 방법이 존재한다. Simple Matching (distance) 두 개의 object 중 다른 attribute를 가지는 개수를 센다. $d(i, j) = \frac{p-m}{p}$ ※ $p$ : 전체 variable의 수, $m$ : 일치하는 value의 수 Use Binary Attribute M개의 nomial state를 가질 때 binary attribute로 변환하고 각 attribute에 대해 prox.. 2022. 6. 3.
Measure Proximity Measure Proximity Data의 similarity 혹은 dissimilarity를 proximity라 한다. Attribute의 type에 따라 similarity를 계산하는 방법이 다르다. nominal = categories : 유한한 수의 value를 가지고 각 value 사이에 대소 관계가 없음 binary : 0 or 1 symmetric binary : 두 value의 중요도가 동일 asymmetric binary : 두 value의 중요도가 다름 ordinal : value 간 순서가 존재하지만 순서 간의 크기는 정해져 있지 않음 numeric = quantitative : value 간 순서가 존재하고 크기를 비교할 수 있다. ratio-scaled : value 간 크기를 대.. 2022. 6. 3.
Proximity : Similarity, Dissimilarity Proximity 두 개의 object가 얼마나 많이 닮았는가를 나타내는 지표를 proximity라 한다. Proximity로써 similarity/dissimilarity을 사용하고 문제마다 정의가 다르다. Similarity, Dissimilarity, Proximity Similarity 값이 높을 수록 많이 닮은 것이고 반대로 dissimilarity가 높을 수록 닮지 않은 것이다. 즉, Similarity가 높을 수록 dissimilarity가 낮아진다. Similarity와 dissimilarity는 반대를 바라보지만 의미하는 것은 동일하다. Similarity 높을수록 많이 닮음을 의미 (how much alike) 주로 0~1의 값을 가진다. Dissimilarity 높을 수록 많이 닮지 .. 2022. 6. 3.