본문으로 바로가기

Entropy

어떠한 Attribute를 더 잘 check 할수 있을것인지 알려주는 하나의 지표

 

어떻게 하면 Attribute를  더 잘 check 할수 있을까?

 → 불확실성을 줄여야한다.

 

불확실성을 측정을 어떻게 할수 있을까?

그것이 바로 Entropy 이다. Entropy 가 높으면 불확실성이 높다는 의미이다.

 

엔트로피 H(X) 에 대한 공식은 아래와 같다.

 

확률밀도함수를 활용하는데 , X가 discrete 한 Case이면 시그마 합을 사용하고, 연속이면 적분 Integral을 사용한다.

 

Conditional Entropy 에 대한 공식은 아래와 같다.

Given X (조건으로 주어진쪽)에 대해 Y의 불확실성을 잡아라는 뜻이다.

즉 Y에 대한 엔트로피를 측정하는데 ,X에 대한 특성을 반영해야한다. ( X라는 조건에 대해 Weighting을 주어야 한다.)

 

Information Gain

 

A1 , A9 에 대한 엔트로피를 측정할수 있다.

그리고 Positive / Negative 의 class variable 에 대해서도 엔트로피를 측정할수 있다.

 

Y : Class variable

 

불확실성을 줄이는 방향으로 가야한다. 즉 Conditional Entropy를 측정해 보아야한다. 

 

Information Gain 은 Class variable Y에 대한 엔트로피가 특정 조건에서의 Class variable Y에 대한 엔트로피가 얼마나 변했는지 측정하는것이다.

 

best variable을 선택 : IG를 이용.

 

 

큰 Decision tree 는 현재 가지고 있는 데이터에 대해서는 잘 작동할수 있는데 , 앞으로 올 데이터에 대해 100% 맞게 예측할수 없다.