본문으로 바로가기

GMM 은 여러개(k개)의 가우시안 분포가 있다. 그중에 아무거나 하나를 선택해서 모델링하는것이다.

 

1. Mixing Coefficient

 

z 는 Mixing coefficient 이고  P(x|z) 는 weight를 통해 soft 하게 선택된 특정 mixture component의 확률이다.

N은 K번째의 Mixture component이다.

zk는 어떠한 특정 cluster를 선택할것인지를 나타낸다. 선택자체는 1 / 0 으로 표현한다.

K- Means algorithm에 사용된 rnk 는 0 혹은 1 그대로 썻다 . 그래서 hard clustering 이다.

 

하지만 zk는 hard한 selection이 확률적으로 일어난다는 것이다.  즉 특정 component가 selection 되는것이  확률의 형태로 되어 있다.(πk)

 

즉 mixing coefficent 를 활용해서 component를 mixing 하는 내용이다.

 

P(Z)는 k개의 대안에서 하나의 대안을 선택하는것과 동일하기 때문에 Multinomial distribution 에 대한 내용이다.

 

2. Mixture component

개별 component 들 Multivariate gaussian distribution 으로 모델링하겠다는 의미이다.

 

특정 k번째 componet( zk)가 selection되어 있다는것을 given일때 X는 k번째 cluster에서 선택되었을때의 확률을 어떻게 될것인가의 의미이다.

Mixture componet의 형태는 zk의 k번째에 대한 확률이고, 즉 K개의 cluster에 대해 ( 모든 클러스터) 곱을 해주고, 선택된 Componet에 대한 Nomal distribution 을 선택하기 때문에 zk를 위의 승수로 올렸다.

 

 

GMM을 beysian network로 표현해 보자.

Σ, μ, π 의 node 색은 다르게 되어 있는데 , parameter 형태를 나타낸다.

x 는 관측되었다는 의미에서 또 다른색으로 표현되었다.

N 은 Plate notation 이고 N개 만큼 있다는 의미이다.

 

위의 그림은 x가 관측되면서 영향을 미치는 random variable 은 z가 있고 그 과정에서 필요한 parameter는 Σ, μ, π 라는 의미이다.

 

 

어떤 특정 x point가 왔을때  zk번째 centroid에 assing 될 확률은 무엇인지 생각해보자. 이것을 γ(znk)라 하자.

위의 식에서 Posterior 확률을 Prior 와 Likelihood 의 확률로 변경하면 아래와 같이 변경되고, 

분모는 normalizing constant 로 대응할수 있다.

P(zk=1)은 πk이고 

P(x|zk=1)은 

zk=1이라 선택되었고 나머지 k가 1~K 중 선택되지 않은것은 zk는 0이라 1 이 되어 버려 사라진다.

그래서 N(x|μk, Σk)만 남게 된다.

 

K means algorithm은  모든데이터 포인트를 특정 centroid에 optimal하게 assign하고 distance를 최소화하는 방향으로 optimize 시켰다.

 

GMM 은 likilihood를 optimization 시키겠다는 의미이다. 즉 Σ, μ, π 의 parameter가 주어졌을때 데이터 포인터가 관측될 확률을 maximize 하는 방향으로 optimization 하겠다는 것이다.