Lift
Interestingness Measure
Mining한 pattern의 가치가 있는지 없는지 판단하는 기준이다.
기존에는 support와 confidence를 이용해서 판단하였다.
그런데 이는 의미 없는 pattern을 의미있게 볼 수 있다는 문제를 야기할 수 있다.
예를 들어, 아래 표에서는
1) play basketball $\rightarrow$ eat cereal [40%, 66.7%]
2) all student $rightarrow$ eat cereal [75%, 75%]
3) play basketball $\rightarrow$ not eat cereal [20%, 33.33%]
임을 확인할 수 있다.
2)를 보면 1)은 의미는 없지만 threshold보다 크기 때문에 의미 있다고 판별될 것이다.
차라리 3)이 support와 confidence가 threshold보다 작지만 의미있다.
이러한 문제를 해결하는 measure가 lift이다.
Lift
$lift = \frac{P(A \cup B)}{P(A)P(B)}$
$P(A \cup B)$ : A와 B를 모두 가진 itemset (확률 관점에서는 $P(A \cap B)$)
Lift는 correlated/dependent events의 비율이기 때문에 1보다 작으면 의미 없는 독립적인 관계이고, 1보다 크면 의미있는 관계임을 뜻한다.
예시
동일한 표에서 lift를 계산하면
$lift(B, C) = \frac{2000 / 5000}{3000 / 5000 \times 3750 / 5000} = 0.89$
$lift(B, not \; C) = \frac{1000 / 5000}{3000 / 5000 \times 1250 / 5000} = 1.33$
이다.
따라서 1보다 큰 play basketball $\rightarrow$ not eat cereal이 의미가 있다.
'Computer Science > Data Science' 카테고리의 다른 글
Classification, Prediction (0) | 2022.04.18 |
---|---|
Constraint-based (Query-Directed) Mining (0) | 2022.04.18 |
Quantitative Association Mining (0) | 2022.04.17 |
Multi-level Association, Multi-dimensional Association (0) | 2022.04.17 |
[Frequent Pattern Mining] CHARM (using Vertical Data Format) (0) | 2022.04.17 |
댓글