본문으로 바로가기

Machine learning 의 error는 2가지 source 가 있다.

- 열심히 하려했는데 , 설명이 잘 안된것. 즉 Approimation 이 망한것.

- 앞으로 올 데이터셋(testing)에 대한 오차. 

 

f : true function

g :  Maching learning Model ( Approximation)

g(D) : 주어진 데이터를 이용해 learning 된 function 들. Parameter inference 까지 된 Machine learing model.

D : 데이터셋

g(hat) :  현실의 모든데이터에 대해서  일부를 관측해서 ML을 만드는 과정을 반복한다고 할때,  계속 sampling 될때마다 거기에 맞는 g(D) 를 만들수 있다. 이것을 무한개를 만들어 평균을 내는것이다.

 

 

여기서 아래 우항의 Ed[Ex(~~)]=Ex[Ed(~~)]로 switch가 가능하다. 왜냐면 mean 값을 구하는 것이기 때문이다.

아래식의 빨간색 부분이 g(hat) 이기 때문에 전체적인 식이 0 이 될수 있다.

g(hat) :세상의 모든 데이터를 다봤다고 가정.

gD(x) : 우리가 가진 데이터넷은 결국 하나이다. 그것으로 만들어진 ML 모델.

 

Bias : 모델의 한계점에 의해 생길수 있는 에러. 

 

True function 에 가까이 가기위해 모델을 complex 하게 만들어 bias를 줄일수 있지만 , 다양한 데이터에 의해 만들어질수 있는 hypothesis 와는 거리가 생긴다. 즉 Variance가 커진다.