위의 그래프에서 실선이나 점선을 사용하더라고 Risk는 항상 존재한다.(Risk는 실선이 더 작다.)
그래프 가운데의 Xm가 있는 점을 Decision Boundary 라고 하고 , 그 근처에서 급격하게 Likelihood 가 바뀐다. Xm 근처에서 급격하게 Likelihood 가 바뀔수록 Risk가 줄어든다. 이런 형태의 Curve를 S - Curve 혹은 Sigmoid Curve라 부른다.
A15 : Continous variable
Class C : Discrete (0 혹은 1 의 값만 존재 - Y=0 은 Credit을 못받은 사람을 의미한다.)
왼쪽의 X 그래프를 Log를 씌우면 급격한 변화를 누그러뜨리게 볼수 있고 그 그래프는 오른쪽 그래프처럼 보여진다.
오른쪽의 그래프가 Credit을 받은사람(1)과 Credit을 받지 않은사람(0)이 좀더 잘보여진다. 어떤 X에 기준을 선택해야 Y값에 대한 Classifier를 잘할수 있을까? (Fitting을 잘할수 있을까?)
위의 그래프의 파란점은 Dataset이고 , 빨간색 점은 Linear Regression 으로 Fitting 을 한 것이다.
녹색점은 Logistic function 으로 Fitting 을 한것이다. ( Logistic function 에 대한 설명은 추후 다시 하겠다.)
왼쪽 그래프는 x가 0 근처에 데이터들이 모여있어 오른쪽의 그래프처럼 X를 log를 취하였다.
오른쪽 그래프를 보면 녹색점의 Logistic function은 Decision boundary 근처에서 Y값이 급격하게 변하는 S-Curve의 형태를 띄고 있다. (여기서 Decesion boundary는 Y=0.5 가 되는 X값 부분이다.)
Decision boundary 경계에서도 Y=1인 실제 데이터가 많이 있다. 이부분을 Error라하고 빨간색점의 Linear Regression가 녹색점의 Logistic function 보다 많다.
즉 S-Curve가 Decision boundary를 만드는데 이득이 있다는것을 알 수 있다.
'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글
Week 4.3. Logistic Regression Parameter Approximation 1 (0) | 2019.06.30 |
---|---|
Week 4.2. Introduction to Logistic Regression (0) | 2019.06.30 |
Week 3.3. Naive Bayes Classifier (0) | 2019.06.24 |
Week 3.2. Conditional Independence (0) | 2019.06.19 |
Week 3.1. Optimal Classification (0) | 2019.06.17 |