1. 程式人生 > >變分推斷(Variational Inference)-mean field

變分推斷(Variational Inference)-mean field

所謂推斷,即是在概率圖模型中計算未觀測變數(變數集)的後驗分佈;然後根據推測出的未觀測變數與觀察變數一起進行引數學習。注意如果將待學習引數也當作變數,那麼引數學習也類似於推斷問題。推斷分為精確推斷和近似推斷,因精確推斷往往需要很大的計算開銷,所以近似推斷在現實應用中跟為常用。近似推斷分為基於確定性的變分推斷和基於隨機性的取樣方法。本文將深入探討變分推斷的原理與技術細節。
假設在貝葉斯模型中,X代表觀測變數集,Z代表隱變數集和引數集,p(X,Z)為相應的聯合概率分佈。在EM演算法深入理解中,我們能得到如下關係:

lnp(X|θ
)=L(q,θ)+KL(q||p)

其中
L(q,θ)=Zq(Z)lnp(X,Z|θ)q(Z)KL(q||p)=Zq(Z)lnp(Z|X,θ)q(Z)

可知,在引數的學習中我們使用EM演算法,即避開觀察資料的對數似然函式lnp(X|θ)的難以優化求解而利用其下界L(q,θ)進行計算。其中,q(Z)的選擇,我們直接採用其後驗概率而使得下界與目標優化函式取等。然而遺憾的是,在概率圖模型當中,隱變數Z的後驗分佈很難通過貝葉斯公式求解,主要是因為分母中

p(X)的積分項的存在。因此,變分推斷的實質就是使用已知簡單分佈來逼近需要推斷的複雜分佈,並通過限制近似分佈的型別,從而得到一種區域性最優,但具有確定解的近似後驗分佈。

1. 數學原理

平均場假設複雜的多變數Z可拆分為一系列相互獨立的多變數Zii=1,,M,且q分佈可以因子化為這些多變數集的乘積:

q(Z)=i=1Mqi(Zi)

qi(Zi)簡寫為qi,那麼下界L(q)可變為(注意這裡的引數θ融入進了隱變數):