Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기
Computer Science/Data Science

Correlations (Lift)

by Gofo 2022. 4. 17.

📝 목차



Lift

Interestingness Measure

Mining한 pattern의 가치가 있는지 없는지 판단하는 기준이다.

기존에는 support와 confidence를 이용해서 판단하였다.

 

그런데 이는 의미 없는 pattern을 의미있게 볼 수 있다는 문제를 야기할 수 있다.

 

예를 들어, 아래 표에서는

1) play basketball eat cereal [40%, 66.7%]

2) all student rightarrow eat cereal [75%, 75%]

3) play basketball not eat cereal [20%, 33.33%]

임을 확인할 수 있다.

 

2)를 보면 1)은 의미는 없지만 threshold보다 크기 때문에 의미 있다고 판별될 것이다.

차라리 3)이 support와 confidence가 threshold보다 작지만 의미있다.

 

이러한 문제를 해결하는 measure가 lift이다.

 

Lift

lift=P(AB)P(A)P(B)

P(AB) : A와 B를 모두 가진 itemset (확률 관점에서는 P(AB))

 

Lift는 correlated/dependent events의 비율이기 때문에 1보다 작으면 의미 없는 독립적인 관계이고, 1보다 크면 의미있는 관계임을 뜻한다.

 

예시

동일한 표에서 lift를 계산하면

lift(B,C)=2000/50003000/5000×3750/5000=0.89

lift(B,notC)=1000/50003000/5000×1250/5000=1.33

이다.

 

따라서 1보다 큰 play basketball not eat cereal이 의미가 있다.

 

 

댓글