본문 바로가기
Computer Science/Data Science

[Decision Tree] Gain Ratio

by Gofo 2022. 4. 18.

Gain Ratio

Information gain은 가질 수 있는 value가 더 많은 attribute에 더 많은 score를 주는 경향이 있다.

더 잘게 나눌 수록 homogeneous할 가능성이 높기 때문이다.

 

이는 fair하지 않기 때문에 gain ratio는 비율에 따라 나눠서 info gain을 normalize 해준다.

얻은 gain의 값에 각 value에 대한 entropy를 나누는 작업을 한다.

 

Information gain과 마찬가지로 maximum gain ratio를 얻는 attribute가 좋다.

 

$GainRatio(A) = \frac{Gain(A)}{SplitInfo_A(D)}$

$SplitInfo_A(D) = -\Sigma ^v _{j=1} \frac{\vert D_j \vert} {\vert D \vert} \times log_2 (\frac{\vert D_j \vert}{\vert D \vert})$

 

 

 

댓글