[Decision Tree] Gain Ratio

Gain Ratio

Information gain은 가질 수 있는 value가 더 많은 attribute에 더 많은 score를 주는 경향이 있다.

더 잘게 나눌 수록 homogeneous할 가능성이 높기 때문이다.

이는 fair하지 않기 때문에 gain ratio는 비율에 따라 나눠서 info gain을 normalize 해준다.

얻은 gain의 값에 각 value에 대한 entropy를 나누는 작업을 한다.

Information gain과 마찬가지로 maximum gain ratio를 얻는 attribute가 좋다.

$GainRatio(A) = \frac{Gain(A)}{SplitInfo_A(D)}$

$SplitInfo_A(D) = -\Sigma ^v _{j=1} \frac{\vert D_j \vert} {\vert D \vert} \times log_2 (\frac{\vert D_j \vert}{\vert D \vert})$

[Classification] Bayesian Classification (0)	2022.04.18
[Decision Tree] Gini Index (0)	2022.04.18
[Decision Tree] Information Gain (0)	2022.04.18
[Classification] Decision Tree (0)	2022.04.18
Classification/Prediction에 대한 여러가지 Issues (0)	2022.04.18