Finding θ with Gradient Ascent
f (θ)는 p에 대한 값이고 likelihood 를 최대한 올려줘야하기 떄문에 argmax를 구하는것이다.
gradient method를 적용하기위해서 필요한것은 derivative의 방향이 필요하다.(unit vector를 만들어야한다. ). 방향을 알면 θ를 반복하면서 계속 update 할수 있다.
개별 θ에 대해서 편미분을 한면 아래와 같이 정리된다.
위의 Logistic regression 을 통해 정리된 편미분 값을 gradient method에 적용해보자.
위의 식에서 C는 unit vector 의 형태를 만들기 위해서 사용되는 normalizing constant 이다. 어차피 h값을 작게 할것이기 때문에 크게 신경쓰지 않아도 되는 값이다.
Linear regression 에서는 θ의 값이 공식으로 정의가 된다.
하지만 데이터셋이 엄청 크면 문제가 될수 있다. 어떠한 문제가 생길수 있을까?
X inverse 값을 구하기 힘들고 , Matrix multiple 하기 어렵다.
그래서 데이터셋이 클경우 θ를 gradient method를 활용하여 approximation 할수 있다.
마지막 줄의 식에 h앞에 -가 붙는 이유는 우리가 구하려는 θ hat은 (f-f hat) , 즉 error을 줄이려고 하기때문에 gradient descent 를 사용한것이기 때문이다.
'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글
Week 4.8 Naive Bayes vs Logistic Regression (0) | 2019.07.17 |
---|---|
Week 4.7. Naive Bayes to Logistic Regression (0) | 2019.07.08 |
Week 4.4. Gradient Method (0) | 2019.06.30 |
Week 4.3. Logistic Regression Parameter Approximation 1 (0) | 2019.06.30 |
Week 4.2. Introduction to Logistic Regression (0) | 2019.06.30 |