본문 바로가기
Computer Science/Data Science

Cluster Analysis

by Gofo 2022. 6. 5.

Cluster Analysis

Cluster

비슷한 특성을 가지는 data object들의 집합이다.

 

비슷한 object들은 같은 cluster 안에 존재해야 하며, 다른 object들은 다른 cluster에 존재하는 것이 좋다.

Object의 특성이 유사한지 다른지는 data의 similiarity(dissimilairty)로 판단한다.

 

Cluster Analysis

정의되어있는 데이터 간 similarity를 찾아내고 비슷한 data object끼리 그룹화하는 작업을 cluster analysis라 한다.

Clustering 하는 작업을 의미한다.

 

Cluster analysis를 위해서는 similarity가 정의되어 있어야 한다.

Similarity는 data type에 따라 정의가 달라질 수 있다.

 

특징

  • Unsupervised learning : Cluster analysis는 unsupervised learning으로 predefined classes(label)이 없다.
  • Stand-alone tool
    • data distribution을 파악하기 위한 도구로 사용될 수 있다.
    • 어떤 class로 나눌 수 있고 각 cluster에 얼마나 많은 object들이 속했는지 등을 확인하는데 사용될 수 있다.
  • Preprocessing step
    • 다른 알고리즘을 위한 전처리 도구로 사용될 수 있다.
    • 알고리즘에서 더 나은 결과를 위해 clustering analysis를 이용하여 데이터의 분포나 특성을 파악할 수 있다.

 

Clustering vs. Classification

  • 공통점 : 둘다 비슷한 data object끼리 그룹화하는 작업이다.
  • 차이점
    • Clustering : unsupervised learning → predefined classes가 없음
    • Classification : supervised learning → predefined classes가 필요

 

응용

  • spatial data analysis
    • 다른 spatial mining task를 위해 공간적인 cluster를 찾기 위해 사용된다.
    • 예시
      • 지도 위에 거주지로 clustering을 함으로써 효율적으로 거주지 중심에 atm을 설치할 수 있다.
      • earth observation db에서 지형이 비슷한 지역을 분류할 수 있다.
      • 도시 계획에서 종류, 가격, 지리 등에 따른 주택 분류를 할 수 있다.
  • economic science
    • 비슷한 행동을 하는 고객들을 구별할 수 있다.
    • 특히 market research에 유용하다
    • 예시
      • 이전에 구매한 item들로 clustering을 하여 targeted marketing 정보 등으로 활용할 수 있다.
      • 보험에서 claim cost(청구 비용)이 높은 고객들을 그룹화할 수 있다.
  • WWW
    • document clustering
    • 예시 : weblog를 clustering 함으로써 비슷한 access pattern을 가지는 사용자들을 분류할 수 있다.
  • image processing & pattern recognition

 


Cluster Anlaysis Approach

대표적인 clustering 방법은 다음과 같다.

  • partitioning approach
    • distance-based 
    • partition ↔ evaluation의 과정을 반복하며 잘 나눠지면 과정을 멈춘다.
    • k-means, k-medoids, CLARANS
  • hierarchical approach
    • distance-based 
    • 일정 기준에 따라 hierarchical decomposition을 수행한다.
    • hierarchical를 구성하고 그에 맞게 cluster를 나눈다.
    • Diana, Agnes, BIRCH, ROCK, CHAMELEON
  • density-based approach
    • 두 점의 거리가 멀더라도 사이에 충분한 density 정보가 유지되면 같은 cluster로 분류한다.
    • density function을 기반으로 분류한다.
    • DBSCAN, OPTICS

 

 

댓글