카테고리 338 [Measure Proximity] For Documents - using Cosine Similarity Cosine Similarity Similarity of Document Document는 각 word의 빈도수를 벡터로 표현함으로써 수많은 attribute로 표현할 수 있다. Document 간의 similiarity를 계산할 때 euclidean distance를 이용하면 방향성을 고려하지 못하고 크기만 고려하게 된다. 때문에 아래와 같이 실제로는 A의 유사도가 더 큰 상황임에도 B가 더 유사한 경우라고 판단한다. Cosine Similarity Cosine similarity는 방향성을 고려하여 similarity를 계산한다. 값이 클 수록 더 유사함을 의미한다. $cos(d_1, d_2) = \frac{(d_1 \cdot d_2)}{ ||d_1 || \times ||d_2||}$ * $\cdot.. 2022. 6. 3. [Measure Proximity] For Mixed Attribute Proximity Measure for Mixed Attributes Type 각 타입의 attribute에 대해 distance를 구하고 이에 대해 weighted avearge를 취한다. 각 타입별 Distance f가 binary이거나 nominal 일 때, $x_{if} = x_{jf} \rightarrow d_{ij}^{(f)} = 0$ else $d_{ij} ^{(f)} = 1$ f가 numeric 일 때, normalized distance 사용 f가 ordinal 일 때 rank 순서대로 $r_{if}$을 매기고 interval-scaled 처럼 $z_{if} = \frac{r_{if} - 1}{M_f - 1}$ 계산 2022. 6. 3. [Measure Proximity] For Ordinal Attribute Proximity Measure For Ordinal Attribute Value 간 순서가 존재 하지만 차이는 정의되어있지 않은 variable이다. Interval-scaled로 변환하여 distance를 계산할 수 있다. 각 attribute의 값을 rank 순서대로 변환한다. 변환된 variable을 0~1 사이의 값으로 매핑한다. $r_{if} \in \{1, 2, ... , M_f\}$ $z_if = \frac{r_{if} - 1}{M_f - 1}$ interval-scaled variable에 대해 dissimilarity를 계산하는 방식대로 distance를 계산한다. 2022. 6. 3. [Measure Proximity] For Numeric Data Standaradizing Numeric data는 scale이 다를 수 있다. 따라서 정규화(standaridizing)이 필요하다. Z-Score $z-score : z = \frac{x - \mu}{\sigma}$ * $x$ : 원본 데이터 * $\mu$ : mean of population * $\sigma$ : standard deviation Mean Absolute Deviation Standard deviation은 평균과 차이가 많이 나는 것을 강조한다. 따라서 outlier에 영향을 많이 받게 된다. 때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다. deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다. $m_f.. 2022. 6. 3. [Measure Proximity] For Binary Attribute For Binary Attributes Value로 0과 1의 값을 가지는 attribute를 binary attribute라 한다. 0과 1의 의미가 동등한지 다른지에 따라 symmetric/asymmetric binary로 나뉜다. For Symmetric Binary 0과 1의 의미가 동일한 variable이다. (distance) 두 variable이 다른 값을 갖는 경우를 센다. $d(i, j) = \frac{r + s}{q + r+ s+t}$ For Asymmetric Binary 1의 의미가 0보다 중요한 variable이다. (distance) 둘 다 0인 경우를 제외하고 두 variable이 다른 값을 갖는 경우를 센다. 아래 수식에서 분모에 둘 다 0인 경우가 빠져있다. 둘 다 0인 경.. 2022. 6. 3. 이전 1 ··· 14 15 16 17 18 19 20 ··· 68 다음