카테고리 339 Cluster Analysis Cluster Analysis Cluster 비슷한 특성을 가지는 data object들의 집합이다. 비슷한 object들은 같은 cluster 안에 존재해야 하며, 다른 object들은 다른 cluster에 존재하는 것이 좋다. Object의 특성이 유사한지 다른지는 data의 similiarity(dissimilairty)로 판단한다. Cluster Analysis 정의되어있는 데이터 간 similarity를 찾아내고 비슷한 data object끼리 그룹화하는 작업을 cluster analysis라 한다. Clustering 하는 작업을 의미한다. Cluster analysis를 위해서는 similarity가 정의되어 있어야 한다. Similarity는 data type에 따라 정의가 달라질 수 있.. 2022. 6. 5. [Measure Proximity] For Documents - using Cosine Similarity Cosine Similarity Similarity of Document Document는 각 word의 빈도수를 벡터로 표현함으로써 수많은 attribute로 표현할 수 있다. Document 간의 similiarity를 계산할 때 euclidean distance를 이용하면 방향성을 고려하지 못하고 크기만 고려하게 된다. 때문에 아래와 같이 실제로는 A의 유사도가 더 큰 상황임에도 B가 더 유사한 경우라고 판단한다. Cosine Similarity Cosine similarity는 방향성을 고려하여 similarity를 계산한다. 값이 클 수록 더 유사함을 의미한다. $cos(d_1, d_2) = \frac{(d_1 \cdot d_2)}{ ||d_1 || \times ||d_2||}$ * $\cdot.. 2022. 6. 3. [Measure Proximity] For Mixed Attribute Proximity Measure for Mixed Attributes Type 각 타입의 attribute에 대해 distance를 구하고 이에 대해 weighted avearge를 취한다. 각 타입별 Distance f가 binary이거나 nominal 일 때, $x_{if} = x_{jf} \rightarrow d_{ij}^{(f)} = 0$ else $d_{ij} ^{(f)} = 1$ f가 numeric 일 때, normalized distance 사용 f가 ordinal 일 때 rank 순서대로 $r_{if}$을 매기고 interval-scaled 처럼 $z_{if} = \frac{r_{if} - 1}{M_f - 1}$ 계산 2022. 6. 3. [Measure Proximity] For Ordinal Attribute Proximity Measure For Ordinal Attribute Value 간 순서가 존재 하지만 차이는 정의되어있지 않은 variable이다. Interval-scaled로 변환하여 distance를 계산할 수 있다. 각 attribute의 값을 rank 순서대로 변환한다. 변환된 variable을 0~1 사이의 값으로 매핑한다. $r_{if} \in \{1, 2, ... , M_f\}$ $z_if = \frac{r_{if} - 1}{M_f - 1}$ interval-scaled variable에 대해 dissimilarity를 계산하는 방식대로 distance를 계산한다. 2022. 6. 3. [Measure Proximity] For Numeric Data Standaradizing Numeric data는 scale이 다를 수 있다. 따라서 정규화(standaridizing)이 필요하다. Z-Score $z-score : z = \frac{x - \mu}{\sigma}$ * $x$ : 원본 데이터 * $\mu$ : mean of population * $\sigma$ : standard deviation Mean Absolute Deviation Standard deviation은 평균과 차이가 많이 나는 것을 강조한다. 따라서 outlier에 영향을 많이 받게 된다. 때문에 outlier가 존재하는 상황에서는 mean absolute deviation이 더 잘 동작한다. deviation을 구할 때 각 값과 평균 차이의 절댓값의 평균 이용한다. $m_f.. 2022. 6. 3. 이전 1 ··· 14 15 16 17 18 19 20 ··· 68 다음