본문 바로가기

Computer Science 254

[Density-based Clustering] OPTICS - Ordering Objects OPTICS = Ordering Points To Identify the Clustering Structure 특징 Cluster의 구조를 알기 위해 point를 순서화하여 시각화하는 preprocessing 도구이다. DBSCAN의 확장 버전으로 주로 좋은 Eps를 찾기 위해 사용한다. MinPts를 고정하고 Eps를 변화시키면서 clustering을 함으로써 좋은 파라미터를 찾을 수 있다. Clustering-ordering 정보는 Eps에 대한 nested 관계를 보여준다. 그래프화/시각화를 통해 표현할 수 있다. 내제된 cluster의 구조를 찾으면서 automatic하고 interactive하게 cluster analysis를 할 수 있다. 사용자가 적절한 Eps 값을 찾을 수 있게 시각화하기 .. 2022. 6. 12.
[Density-based Clustering] DBSCAN DBSCAN = Densit Based Spatial Clustering of Applications with Noise Distance-based가 아니기 때문에 noise를 가진 spatial db에서 어떠한 모양의 cluster더라도 발견해낼 수 있다. 다만 parameter(Eps, MinPts)에 대해 sensitive하다. core 주변에 충분한 neighbor들이 존재하는 점 $N_{Eps} \geq MinPts$ cluster 어떤 점으로부터 최대한 density-connected한 points들의 집합 maximal set of density-connected points outlier 주변에 충분히 density한 점들이 없는 점 $N_{Eps}(p) < MinPts$ 방법 임의의 점 .. 2022. 6. 12.
[Cluster Analysis] Density-Based Clustering Density-Based Clustering 일정 이상의 density를 가지는 점들을 같은 cluster로 취급한다. Distance-based가 아닌 density-based이다. 특징 Shape of cluster 어떤 모양의 cluster이든 발견할 수 있다. K-Means는 긴 것은 자르는 경향이 있고 원 모양대로 묶인다. Density-based는 별모양이든 반원 모양이든 모양대로 묶을 수 있다. Robust Noise에 견딜 수 있다. K-means는 noise에 의해 중심이 이동되기 때문에 noise에 영향을 받는다. 1 DB scan 1번의 scan으로 clustering이 가능하기 때문에 효율적이다. Density threshold 묶을 density의 threshold를 정해주어야 한.. 2022. 6. 12.
[Hierarchical Clustering] CHAMELEON CHAMELEON Dynamic modeling을 이용한 bottom-up 방식의 hierarchical clustering method이다. 두 cluster 간 interconnectivity와 closeness가 상대적으로 크면 두 cluster를 merge한다. 이를 통해 주변 상황에 맞게(dynamic하게) merge 할 수 있다. 단, 몇 개의 cluster로 나눌 것인지 미리 정해주어야 한다. CHAMELEON은 성능은 괜찮지만 scalability가 좋지 않다. Relative Interconnectivity edge의 수를 기준으로 판단 두 그룹 간 edge cut의 수 / 두 개 각각의 edge cut 수의 평균 $RI(C_i, C_j) = \frac{|EC_{\{ C_i, C_j \}.. 2022. 6. 12.
[CNN] Pooling Pooling Convolution network에는 주로 pooling layer가 포함된다. Pooling은 정해진 window에서 특정 행위를 하는 layer이다. Activation map을 재가공하는 역할을 한다. 종류 max pooling 가정 : 가장 큰 값이 중요한 역할을 한다. 기능 : window 내에서 max 값을 뽑아서 사용한다. average pooling 가정 : 평균(통계)이 중요하다고 본다. 기능 : window 내의 평균을 구해서 사용한다. Max Pooling vs Average Pooling Max pooling과 average pooling은 가정이 다르기 때문에 문제마다 어떤 것이 좋을지는 다르다. 일반적으로 max pooling이 좀 더 선호되고 끝단으로 갈수록 a.. 2022. 6. 7.