본문 바로가기
Computer Science/Data Science

Correlations (Lift)

by Gofo 2022. 4. 17.

Lift

Interestingness Measure

Mining한 pattern의 가치가 있는지 없는지 판단하는 기준이다.

기존에는 support와 confidence를 이용해서 판단하였다.

 

그런데 이는 의미 없는 pattern을 의미있게 볼 수 있다는 문제를 야기할 수 있다.

 

예를 들어, 아래 표에서는

1) play basketball $\rightarrow$ eat cereal [40%, 66.7%]

2) all student $rightarrow$ eat cereal [75%, 75%]

3) play basketball $\rightarrow$ not eat cereal [20%, 33.33%]

임을 확인할 수 있다.

 

2)를 보면 1)은 의미는 없지만 threshold보다 크기 때문에 의미 있다고 판별될 것이다.

차라리 3)이 support와 confidence가 threshold보다 작지만 의미있다.

 

이러한 문제를 해결하는 measure가 lift이다.

 

Lift

$lift = \frac{P(A \cup B)}{P(A)P(B)}$

$P(A \cup B)$ : A와 B를 모두 가진 itemset (확률 관점에서는 $P(A \cap B)$)

 

Lift는 correlated/dependent events의 비율이기 때문에 1보다 작으면 의미 없는 독립적인 관계이고, 1보다 크면 의미있는 관계임을 뜻한다.

 

예시

동일한 표에서 lift를 계산하면

$lift(B, C) = \frac{2000 / 5000}{3000 / 5000 \times 3750 / 5000} = 0.89$

$lift(B, not \; C) = \frac{1000 / 5000}{3000 / 5000 \times 1250 / 5000} = 1.33$

이다.

 

따라서 1보다 큰 play basketball $\rightarrow$ not eat cereal이 의미가 있다.

 

 

댓글