📝 목차
Lift
Interestingness Measure
Mining한 pattern의 가치가 있는지 없는지 판단하는 기준이다.
기존에는 support와 confidence를 이용해서 판단하였다.
그런데 이는 의미 없는 pattern을 의미있게 볼 수 있다는 문제를 야기할 수 있다.
예를 들어, 아래 표에서는
1) play basketball → eat cereal [40%, 66.7%]
2) all student rightarrow eat cereal [75%, 75%]
3) play basketball → not eat cereal [20%, 33.33%]
임을 확인할 수 있다.

2)를 보면 1)은 의미는 없지만 threshold보다 크기 때문에 의미 있다고 판별될 것이다.
차라리 3)이 support와 confidence가 threshold보다 작지만 의미있다.
이러한 문제를 해결하는 measure가 lift이다.
Lift
lift=P(A∪B)P(A)P(B)
P(A∪B) : A와 B를 모두 가진 itemset (확률 관점에서는 P(A∩B))
Lift는 correlated/dependent events의 비율이기 때문에 1보다 작으면 의미 없는 독립적인 관계이고, 1보다 크면 의미있는 관계임을 뜻한다.
예시
동일한 표에서 lift를 계산하면
lift(B,C)=2000/50003000/5000×3750/5000=0.89
lift(B,notC)=1000/50003000/5000×1250/5000=1.33
이다.
따라서 1보다 큰 play basketball → not eat cereal이 의미가 있다.

'Computer Science > Data Science' 카테고리의 다른 글
Classification, Prediction (0) | 2022.04.18 |
---|---|
Constraint-based (Query-Directed) Mining (0) | 2022.04.18 |
Quantitative Association Mining (0) | 2022.04.17 |
Multi-level Association, Multi-dimensional Association (0) | 2022.04.17 |
[Frequent Pattern Mining] CHARM (using Vertical Data Format) (0) | 2022.04.17 |
댓글