GMM 은 여러개(k개)의 가우시안 분포가 있다. 그중에 아무거나 하나를 선택해서 모델링하는것이다.
1. Mixing Coefficient
z 는 Mixing coefficient 이고 P(x|z) 는 weight를 통해 soft 하게 선택된 특정 mixture component의 확률이다.
N은 K번째의 Mixture component이다.
zk는 어떠한 특정 cluster를 선택할것인지를 나타낸다. 선택자체는 1 / 0 으로 표현한다.
K- Means algorithm에 사용된 rnk 는 0 혹은 1 그대로 썻다 . 그래서 hard clustering 이다.
하지만 zk는 hard한 selection이 확률적으로 일어난다는 것이다. 즉 특정 component가 selection 되는것이 확률의 형태로 되어 있다.(πk)
즉 mixing coefficent 를 활용해서 component를 mixing 하는 내용이다.
P(Z)는 k개의 대안에서 하나의 대안을 선택하는것과 동일하기 때문에 Multinomial distribution 에 대한 내용이다.
2. Mixture component
개별 component 들 Multivariate gaussian distribution 으로 모델링하겠다는 의미이다.
특정 k번째 componet( zk)가 selection되어 있다는것을 given일때 X는 k번째 cluster에서 선택되었을때의 확률을 어떻게 될것인가의 의미이다.
Mixture componet의 형태는 zk의 k번째에 대한 확률이고, 즉 K개의 cluster에 대해 ( 모든 클러스터) 곱을 해주고, 선택된 Componet에 대한 Nomal distribution 을 선택하기 때문에 zk를 위의 승수로 올렸다.
GMM을 beysian network로 표현해 보자.
Σ, μ, π 의 node 색은 다르게 되어 있는데 , parameter 형태를 나타낸다.
x 는 관측되었다는 의미에서 또 다른색으로 표현되었다.
N 은 Plate notation 이고 N개 만큼 있다는 의미이다.
위의 그림은 x가 관측되면서 영향을 미치는 random variable 은 z가 있고 그 과정에서 필요한 parameter는 Σ, μ, π 라는 의미이다.
어떤 특정 x point가 왔을때 zk번째 centroid에 assing 될 확률은 무엇인지 생각해보자. 이것을 γ(znk)라 하자.
위의 식에서 Posterior 확률을 Prior 와 Likelihood 의 확률로 변경하면 아래와 같이 변경되고,
분모는 normalizing constant 로 대응할수 있다.
P(zk=1)은 πk이고
P(x|zk=1)은
zk=1이라 선택되었고 나머지 k가 1~K 중 선택되지 않은것은 zk는 0이라 1 이 되어 버려 사라진다.
그래서 N(x|μk, Σk)만 남게 된다.
K means algorithm은 모든데이터 포인트를 특정 centroid에 optimal하게 assign하고 distance를 최소화하는 방향으로 optimize 시켰다.
GMM 은 likilihood를 optimization 시키겠다는 의미이다. 즉 Σ, μ, π 의 parameter가 주어졌을때 데이터 포인터가 관측될 확률을 maximize 하는 방향으로 optimization 하겠다는 것이다.
'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글
Week 8.8 Fundamentals of the EM Algorithm (0) | 2019.10.10 |
---|---|
Week 8.7 Relation between K-means and GMM (0) | 2019.10.09 |
Week 8.4 Multivariate Gaussian Distribution (0) | 2019.10.03 |
Week 8.3 Multinomial Distribution (0) | 2019.10.03 |
Week 8.2 K-Means Algorithm 2 (0) | 2019.10.01 |