Gini Index
Information gain과 마찬가지로 더 homogeneous하게 나뉘도록 한다.
Gini index는 일반적으로 attribute가 binary value를 가질 때만을 고려한다.
따라서 value를 binary하게 묶어서 classification을 해야 한다.
Gini
Gini의 값이 더 클수록 heterogenity하다는 것을 의미하므로 gini의 값은 작게 해야 한다.
$gini(D) = 1 - \Sigma ^n _{j=1} p^2 _j$
$p_j$ : j라는 class에 속할 확률
* Info(D) = $-\Sigma ^n _{j=1} p_j log_2 p_j$
따라서 dataset $D$가 attribute A로 인해 $D_1$과 $D_2$로 나뉘었을 때의 $gini(D)$ 값은
$gini_A(D) = \frac{\vert D_1 \vert}{\vert D \vert} gini(D_1) + \frac{\vert D_2 \vert}{\vert D \vert} gini(D_2)$
Impurity
= heteroginity
나눈 후의 impurity가 줄어야하므로 나누기 전과 후의 impurity 차이가 최대가 되도록 해야 한다.
$\Delta gini(A) = gini(D) - gini_A(D)$
예시
'Computer Science > Data Science' 카테고리의 다른 글
[Classification] Rule-based Classification (0) | 2022.04.18 |
---|---|
[Classification] Bayesian Classification (0) | 2022.04.18 |
[Decision Tree] Gain Ratio (0) | 2022.04.18 |
[Decision Tree] Information Gain (0) | 2022.04.18 |
[Classification] Decision Tree (0) | 2022.04.18 |
댓글