초보아기 아빠 머신러닝 공부 블로그

위의 그래프에서 실선이나 점선을 사용하더라고 Risk는 항상 존재한다.(Risk는 실선이 더 작다.)

그래프 가운데의 Xm가 있는 점을 Decision Boundary 라고 하고 , 그 근처에서 급격하게 Likelihood 가 바뀐다. Xm 근처에서 급격하게 Likelihood 가 바뀔수록 Risk가 줄어든다. 이런 형태의 Curve를 S - Curve 혹은 Sigmoid Curve라 부른다.

A15 : Continous variable

Class C : Discrete (0 혹은 1 의 값만 존재 - Y=0 은 Credit을 못받은 사람을 의미한다.)

왼쪽의 X 그래프를 Log를 씌우면 급격한 변화를 누그러뜨리게 볼수 있고 그 그래프는 오른쪽 그래프처럼 보여진다.

오른쪽의 그래프가 Credit을 받은사람(1)과 Credit을 받지 않은사람(0)이 좀더 잘보여진다. 어떤 X에 기준을 선택해야 Y값에 대한 Classifier를 잘할수 있을까? (Fitting을 잘할수 있을까?)

위의 그래프의 파란점은 Dataset이고 , 빨간색 점은 Linear Regression 으로 Fitting 을 한 것이다.

녹색점은 Logistic function 으로 Fitting 을 한것이다. ( Logistic function 에 대한 설명은 추후 다시 하겠다.)

왼쪽 그래프는 x가 0 근처에 데이터들이 모여있어 오른쪽의 그래프처럼 X를 log를 취하였다.

오른쪽 그래프를 보면 녹색점의 Logistic function은 Decision boundary 근처에서 Y값이 급격하게 변하는 S-Curve의 형태를 띄고 있다. (여기서 Decesion boundary는 Y=0.5 가 되는 X값 부분이다.)

Decision boundary 경계에서도 Y=1인 실제 데이터가 많이 있다. 이부분을 Error라하고 빨간색점의 Linear Regression가 녹색점의 Logistic function 보다 많다.

즉 S-Curve가 Decision boundary를 만드는데 이득이 있다는것을 알 수 있다.

'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글

Week 4.3. Logistic Regression Parameter Approximation 1 (0)	2019.06.30
Week 4.2. Introduction to Logistic Regression (0)	2019.06.30
Week 3.3. Naive Bayes Classifier (0)	2019.06.24
Week 3.2. Conditional Independence (0)	2019.06.19
Week 3.1. Optimal Classification (0)	2019.06.17

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

초보아기 아빠 머신러닝 공부 블로그

Week 4.1 Decision Boundary

'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글

티스토리툴바

'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글

검색

티스토리툴바