본문 바로가기
Computer Science/Data Science

[Decision Tree] Gini Index

by Gofo 2022. 4. 18.

Gini Index

Information gain과 마찬가지로 더 homogeneous하게 나뉘도록 한다.

 

Gini index는 일반적으로 attribute가 binary value를 가질 때만을 고려한다.

따라서 value를 binary하게 묶어서 classification을 해야 한다.

 

Gini

Gini의 값이 더 클수록 heterogenity하다는 것을 의미하므로 gini의 값은 작게 해야 한다.

$gini(D) = 1 - \Sigma ^n _{j=1}  p^2 _j$

$p_j$ : j라는 class에 속할 확률

 

* Info(D) = $-\Sigma ^n _{j=1} p_j log_2 p_j$

 

따라서 dataset $D$가 attribute A로 인해 $D_1$과 $D_2$로 나뉘었을 때의 $gini(D)$ 값은

$gini_A(D) = \frac{\vert D_1 \vert}{\vert D \vert} gini(D_1) + \frac{\vert D_2 \vert}{\vert D \vert} gini(D_2)$

 

Impurity

= heteroginity

 

나눈 후의 impurity가 줄어야하므로 나누기 전과 후의 impurity 차이가 최대가 되도록 해야 한다.

$\Delta gini(A) = gini(D) - gini_A(D)$

 

 

예시

 

댓글