본문으로 바로가기

K-means 와 GMM 의 관계를 좀더 수식적으로 알아보자.

Covariance Matrix Σk 를 identity matrix 라 가정해보자. 즉 개별 dimenstion 상으로 분산은 있고, corrleation은 없다는 의미이다. 분산은 e를 통해 분산의 정도를 조절할수 있다.

위의 식의 분모는 K에 대한 summation 이기 때문에 independant 하지만 분모는 개별 k 마다 경쟁을 한다.

e가 점점 줄어들어 나갈때 , exp안의 항이 0에 가까워 질수록 점점 내려간다. 𝝁𝑘 가 크면 더빨리 줄어들고,  𝝁𝑘가 작으면 천천히 줄어든다. exp 에 의해 값들이 0으로 수렴하여도 , 𝝁𝑘 이 제일 작은 cluster는 0에 가까워 져도 여전히 값을 지니게 된다. (느리게 이동하기 때문이다.)  그 특정 cluster에 대한  assignment probability가  dominant 해진다. 

즉 이것은 e가 0으로 갈때 soft clustering 의 GMM 이 hard clustering 의 K-means 로 가고 있다는 의미이다. GMM을 통해 K-means algorithm을 할수 있다는 의미이다.