본문 바로가기
Computer Science/Data Science

Quantitative Association Mining

by Gofo 2022. 4. 17.

Quantitative Association Rule Mining

Attribute Types

Attribute(predicate)에는 2가지 종류가 있다.

  • categorical attribute
    • 가능한 value의 수가 유한하다.
    • value 사이에 순서가 없다.
    • 예) occupation(X, "student")
  • quantitative attribute
    • numeric
    • value 사이에 implicit order가 존재한다.

 

Mining Quantitative Association

Quantitative attribute에 대한 rule mining은 주로 discretization이나 clustering을 한 후에 association rule mining을 수행한다.

범위로 묶어서 mining하지 않고 고유의 값 자체로 mining을 수행하면 중복되는 값이 별로 나오지 않게 되기 때문이다.

 

Quantitative attribute에 대한 rule mining을 하는 방법은 대표적으로 3가지가 존재한다.

  • Static discretization
    • 미리 정해진 concept hierarchy에 의해 묶어서 mining을 한다.
  • Dynamic discretization
    • based on data distribution
    • predefined concpet hierarchy가 존재하지 않는다.
    • dynamic하게 hierarchy를 정해서 묶고 mining을 수행한다.
  • Clustering
    • distance-based association

 


Static Descretization

미리 정해진 concept hierarchy에 의해서 clustering을 하여 mining을 한다.

Numeric value는 range로 변하게 된다.

 

* 예시 : age(X, "19-25") $\cap$ occupation(X, "student") $\rightarrow$ buys(X, "coke")

 

이렇게 변화시킨 후 apriori 혹은 FP-growth를 통해 mining을 수행할 수 있다.

 


Dynamic Discretization

Concept hierarchy가 주어지지 않은 상황에서 dynamic하게 discretization을 해서 mining을 할 수 있다.

 

방법

  1. 알고 싶은 association의 관계에 대해 미리 meta rule을 제공한다.
    • meta rule
      • 2D-quantitative association rule
      • 2개의 quantitative attribute와 1개의 categorical attribute를 이용하여 찾고자 하는 관계를 표현할 수 있다.
    • 예시 : $A_{quantitative1} \cap A_{quantitative2} \rightarrow A_{categorical}$ 
    • 이런 형태의, confidence와 support가 threshold를 만족하는 rule을 찾으면 된다.
  2. 관계를 찾고자하는 quantitative에 대해 일정한 간격의 grid(cell)로 나눈다.
  3. grid의 support와 confidence가 threshold 이상인 grid를 찾는다.
  4. 범위로 나타낼 수 있는 grid를 묶어서 간단하게 하여 표현한다.

 

예시

아래와 같은 grid를 통해 age(X, "34-35") $\cap$ income(X, "30-50K") $\rightarrow$ buys(X, "high resolution TV")를 나타낼 수 있다.

댓글