본문으로 바로가기

위의 그래프에서 실선이나 점선을 사용하더라고 Risk는 항상 존재한다.(Risk는 실선이 더 작다.)

그래프 가운데의 Xm가 있는 점을 Decision Boundary 라고 하고 , 그 근처에서 급격하게 Likelihood 가 바뀐다. Xm 근처에서 급격하게 Likelihood 가 바뀔수록 Risk가 줄어든다. 이런 형태의 Curve를 S - Curve 혹은 Sigmoid Curve라 부른다.

 

A15 : Continous variable

Class C : Discrete (0 혹은 1 의 값만 존재 - Y=0 은 Credit을 못받은 사람을 의미한다.)

왼쪽의 X 그래프를 Log를 씌우면 급격한 변화를 누그러뜨리게 볼수 있고 그 그래프는 오른쪽 그래프처럼 보여진다.

오른쪽의 그래프가 Credit을 받은사람(1)과 Credit을 받지 않은사람(0)이 좀더 잘보여진다. 어떤 X에 기준을 선택해야 Y값에 대한 Classifier를 잘할수 있을까? (Fitting을 잘할수 있을까?)

 

위의 그래프의 파란점은 Dataset이고 , 빨간색 점은 Linear Regression 으로 Fitting 을 한 것이다.

녹색점은 Logistic function 으로 Fitting 을 한것이다. ( Logistic function 에 대한 설명은 추후 다시 하겠다.)

왼쪽 그래프는 x가 0 근처에 데이터들이 모여있어 오른쪽의 그래프처럼 X를 log를 취하였다.

오른쪽 그래프를 보면 녹색점의 Logistic function은 Decision boundary 근처에서 Y값이 급격하게 변하는 S-Curve의 형태를 띄고 있다. (여기서 Decesion boundary는 Y=0.5 가 되는 X값 부분이다.)

Decision boundary 경계에서도 Y=1인 실제 데이터가 많이 있다. 이부분을  Error라하고 빨간색점의 Linear Regression가 녹색점의 Logistic function 보다 많다.

즉 S-Curve가 Decision boundary를 만드는데 이득이 있다는것을 알 수 있다.