Gain Ratio
Information gain은 가질 수 있는 value가 더 많은 attribute에 더 많은 score를 주는 경향이 있다.
더 잘게 나눌 수록 homogeneous할 가능성이 높기 때문이다.
이는 fair하지 않기 때문에 gain ratio는 비율에 따라 나눠서 info gain을 normalize 해준다.
얻은 gain의 값에 각 value에 대한 entropy를 나누는 작업을 한다.
Information gain과 마찬가지로 maximum gain ratio를 얻는 attribute가 좋다.
$GainRatio(A) = \frac{Gain(A)}{SplitInfo_A(D)}$
$SplitInfo_A(D) = -\Sigma ^v _{j=1} \frac{\vert D_j \vert} {\vert D \vert} \times log_2 (\frac{\vert D_j \vert}{\vert D \vert})$
'Computer Science > Data Science' 카테고리의 다른 글
[Classification] Bayesian Classification (0) | 2022.04.18 |
---|---|
[Decision Tree] Gini Index (0) | 2022.04.18 |
[Decision Tree] Information Gain (0) | 2022.04.18 |
[Classification] Decision Tree (0) | 2022.04.18 |
Classification/Prediction에 대한 여러가지 Issues (0) | 2022.04.18 |
댓글