본문으로 바로가기

Linear Regression

http://archive.ics.uci.edu/ml/datasets/Housing 의 Housing dataset 의 예시를 이용해보자.

Housing dataset 은 아래와 같은 특징이 있다.

 

- 13개의 Attribute (Independant variable)

- 1개의 Class variable (Dependant variable)

 

Function Approximation 을 Linear 한 형태로 하는것을 Linear regression 이라 한다.

Hypothesis 를 function 의 형태로 정의해 보자.

Function 이 잘 작동하려면 Θ를 잘 정해야 한다. n은 attribute 의 갯수이다.

Θ0 = X0 * Θ0 이고 보통 X0은 1 이라 Θ0을 시그마 식안에 포함할수 있다.

X matrix 는 D개의 dataset 과 n개의 attribute 가 있다.

 

실제 f는 e 라는 error term이 있다. 하지만 우리가 표현하는 식은 XΘ 이고 에러가 없기에 f hat이라 부른다.

 

Θ 에 대해 미분을 해서 argmin Θ를 찾을수 있다.

 

위의 그림에서 뒤쪽의 데이터는 잘맞지 않느것 같아보인다.

X의 feature를 φ라는 function 을 이용해서 새로운 vector로 만들어서 그것을 활용해 Θ를 다시 만들수 있다.

예를 들어 x를 x^2, x^3, x^4 으로 변경하여 Θ를 다시 만들면 위의 연두색 점선으로 Fitting 이 될수 있다. 

이것은 처음 1차 regeression ( 파란선) 보다 뒤쪽부분은 잘반영된것으로 보인다.

 

그런데 앞쪽(0~30)은 잘 fitting 되어 보이지만 , 뒤쪽( 60~)은 데이터가 별로 없는곳에 fitting 이 좀 좋아 보인다고 (억지로 맞춘것 처럼 보여서) 이 모델이 잘맞는다고 생각할순 없어 보인다.