Entropy
어떠한 Attribute를 더 잘 check 할수 있을것인지 알려주는 하나의 지표
어떻게 하면 Attribute를 더 잘 check 할수 있을까?
→ 불확실성을 줄여야한다.
불확실성을 측정을 어떻게 할수 있을까?
그것이 바로 Entropy 이다. Entropy 가 높으면 불확실성이 높다는 의미이다.
엔트로피 H(X) 에 대한 공식은 아래와 같다.
확률밀도함수를 활용하는데 , X가 discrete 한 Case이면 시그마 합을 사용하고, 연속이면 적분 Integral을 사용한다.
Conditional Entropy 에 대한 공식은 아래와 같다.
Given X (조건으로 주어진쪽)에 대해 Y의 불확실성을 잡아라는 뜻이다.
즉 Y에 대한 엔트로피를 측정하는데 ,X에 대한 특성을 반영해야한다. ( X라는 조건에 대해 Weighting을 주어야 한다.)
Information Gain
A1 , A9 에 대한 엔트로피를 측정할수 있다.
그리고 Positive / Negative 의 class variable 에 대해서도 엔트로피를 측정할수 있다.
Y : Class variable
불확실성을 줄이는 방향으로 가야한다. 즉 Conditional Entropy를 측정해 보아야한다.
Information Gain 은 Class variable Y에 대한 엔트로피가 특정 조건에서의 Class variable Y에 대한 엔트로피가 얼마나 변했는지 측정하는것이다.
best variable을 선택 : IG를 이용.
큰 Decision tree 는 현재 가지고 있는 데이터에 대해서는 잘 작동할수 있는데 , 앞으로 올 데이터에 대해 100% 맞게 예측할수 없다.
'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글
Week 3.1. Optimal Classification (0) | 2019.06.17 |
---|---|
Week 2.5. How to create a decision tree given a training dataset (0) | 2019.06.16 |
Week 2.3. Introduction to Decision Tree (0) | 2019.06.15 |
Week 2.2 Introduction to Rule Based Algorithm (0) | 2019.06.12 |
Week2.1. Rule Based Machine Learning Overview (0) | 2019.06.11 |