EM을 통해 확률을 optimize 하는것을 해보겠다.
K-means 와 GMM 은 유사하다.
- rnk 는 mixing coeeficient 로 대응
- centroid 위치 는 𝜇,Σ 로 표현되는 multivariate Gaussian parameter 대응.
1. Expectation step
GMM은 soft 하게 assign 한다. ( K-means 는 hard 하게 assign 하였다. ( 1 혹은 0 으로만.)
즉 assignment probability를 계산할수 있다. 여기서 assignment probability는 𝛾(𝑧𝑛𝑘)이다.
𝑥,𝜋,𝜇,Σ 가 given 인 상황에서 계산할수 있다.
2. Maximization of GMM
- 𝛾(𝑧𝑛𝑘) 를 활용해 𝜋,𝜇,Σ 를 update 하려한다.
𝜋k 의 MLE를 구할때 아래 식에 대해 알아보자.
모든 데이터 포인터가 모든 클러스터에 assign 되는 확률의 총합 : 즉 한데이터포인트는 k개의 대안이 되는 경우 다 합하면 1이다. (ΣK 부분)이걸 N번 반복하면 합은 N 이다.(ΣN 부분). 위의 식을 간단히 정리하며라그랑지 상수 λ 를 구할수 있다.
iteration 이 작을때 점들이 흐릿하게 보이는것은 확률적으로 assing 되기 때문이다.
iteration 이 어느정도 saturation 하면 흐릿하던 부분은 선명해지고 , 여전히 애매한 부분은 soft 하게 assign 되었다.
Covariance Matrix를 활용해 K-means 의 유클리드 distance를 극복할수 있다.