본문으로 바로가기

이전 강의에서 배운 Conditional Independence 에서

P(X=x|Y=y) 부분은 복잡한 Joint part의 부분으로 되어있다.

이것의 필요한 parameter수도 아주 많다. 그 수는 아래와 같다.

여기서 Conditional independent assumption 을 정의해보자. 모든 X부분에 대해 적용을해보면 아래와 같이 Prior part(P(Y=y)는 변함이 없고, P(X=x|Y=y) 부분이 개별 Feature들의 곱셈으로 바뀐다.

식1

그러면 필요한 개별 parameter의 수는 어떻게 변하게 될까?

k : Prior part의 수

d : 데이터의 수

dk 수만큼 Parmeter의 수가 필요하다. 위의식에서 (2-1)은 우리가 저번시간에 배운 예제의 개별 Feature들은 2가지의 Case만 있는데 여기서 하나의 Case를 알면 다른 하나의 Case도 유추할수 있기 때문에 (2-1) 이다.

 

위의 식1에서 등호가 물결모양으로 되어 있는데 , 개별 feature의 곱으로 바뀌면서 우리는 conditional independence 라는 가정을 전제하에 했기때문에 equal 이 될수 없다. 

(너무 많은 parameter를 계산하기 힘들기 때문에 억지스럽게 만든 Classifier 이다.)

 

Naïve Bayes classifier 를 다시한번 정리하면 아래와 같다.

 

Naïve Bayes classifier 는 optimal classifier 일까요?

 

여기서 optimal classifier는 현재 주어진 데이터에서 이를 가장 잘 설명하는 파라미터를 찾는것입니다.   즉 Posterior를 최대로 하는것이고 Naïve Bayes classifier는 Bayes risk 를 줄이려는 classifier 이다.

 

그러면 Naïve Bayes classifier  의 문제점은 무엇이 있을까?

 

1) 현실에서 적용되지 않는다. (Naïve assumption 을 사용하기 때문 : 개별 feature들은 conditional independence 이다.)

2) MAP를 활용하여 개별확률값을 만들어줘야한다. 하지만 incorrect 한 Prior 확률을 만들면 문제가 될수 있다.

MLE는 관측되지 않는것에 되해서는 정확히 estimation 을 할수 없다.

 

 

* MLE는 likelihood를 maximize 하는 방법으로 특정 모델 파라미터에서 가장 높은 likelihood가 나오는 데이터가 어떤 값인지를 구하는 방법론입니다.

MAP는 posterior를 maximize 하는 방법으로 모델 파라미터의 분포를 가정하여 관측된 데이터를 통해 어떤 모델 파라미터에서 가장 큰 posterior를 갖는지를 구하는 방법론입니다.