본문으로 바로가기

K-Means 알고리즘은 Euclidean distance 의 문제점과 hard clustering 의 문제점이 있다.

이것을 극복가능한 Gaussian Mixture Model에 대해 배워보겠다.

 

Multinomial Distribution

binomial distribution 에서 bi 를 multi 로 바꾼것이다. 즉 2개의 선택지에서 여러개의 선택지로 바꾸겠다는 의미이다.

6개의 선택지에서 하나만 선택하는것이고 선택된 것을 1로 표현 선택되지 않은것을 0으로 표현한다.

확률의 관점에서는 선택된 것만 생각하면 된다. μk 는 특정한 선택지를 선택할 확률이다.

예를 들어 첫번째를 선택할 확률은 μ1 두번째를 선택할 확률은 μ2 이다.

 하나만 선택하는것이기 때문에 Σk xk = 1 이다. x는 0 혹은 1이기 때문에 0이 승수로 올라가면 밑의 값이 무엇이든간에 1이 되버린다. 즉 P(X|μ)= μk가 되버린다.

 

 

Multinomial distribution은 데이터 포인트가 N개가 있는데 각각의 데이터 포인터들이 k개의 선택지를 가지고 있을때 사용된다. 

 

위의 식은 N개의 데이터 포인트가 있기때문에 위의 N번 Joint 하는것이라 보겠다하여 곱하였다.

 

Lagrange Method

 

목적함수가 있고, 제약조건(Subject part)이 있을때는 Lagrange Method를 쓰면된다.

 

위의 3) 에서

위의식은 아래의 2개의 파트의 곱으로 나타낸것이다.

1) 모든 선택지에 대한 합

2) 개별 선택지 마다 모든 데이터들이 선택이 됬나 안된나를 summation 한것이다.

 

예를 들어 4지 선다형 25문제가 있다고 하자. 

1번으로 5문항 2번으로 5문항 3번으로 5문항 4번으로 10문항 선택하였다고 하자.

그러면 5+5+5+10 즉 선택지의 개수가 되었다.

 

즉 위식의 의미는 선택지의 개수인것이다.