本文是LDA主題模型的第二篇，讀這一篇之前建議先讀文字主題模型之LDA(一) LDA基礎，同時由於使用了基於MCMC的Gibbs取樣演算法，如果你對MCMC和Gibbs取樣不熟悉，建議閱讀之前寫的MCMC系列MCMC(四)Gibbs取樣。

1. Gibbs取樣演算法求解LDA的思路

　　　　首先，回顧LDA的模型圖如下：

　　　　在Gibbs取樣演算法求解LDA的方法中，我們的 $α, η$

　　　　具體到我們的問題，我們的所有文件聯合起來形成的詞向量

\vec{w}

2. 主題和詞的聯合分佈與條件分佈的求解

　　　　從上一節可以發現，要使用Gibbs取樣求解LDA，關鍵是得到條件概率

p (z_{i} = k | \vec{w}, {\vec{z}}_{\neg i})

　　　　首先我們簡化下Dirichlet分佈的表示式,其中

△ (α)

Dirichlet(p⃗ |α⃗ )=Γ(∑k=1Kαk)∏Kk=1Γ(αk)∏k=1Kpαk−1k=1△(α⃗ )∏k=1Kpαk−1kDirichlet(p→|α→)=Γ(∑k=1Kαk)∏k=1KΓ(αk)∏k=1Kpkαk−1=1△(α→)∏k=1Kpkαk−1

　　　　現在我們先計算下第d個文件的主題的條件分佈

p ({\vec{z}}_{d} | α)

p(z⃗ d|α⃗ )=∫p(z⃗ d|θ⃗ d)p(θd|α⃗ )dθ⃗ d=∫∏k=1Kpn(k)dkDirichlet(α⃗ )dθ⃗ d=∫∏k=1Kpn(k)dk1△(α⃗ )∏k=1Kpαk−1kdθ⃗ d=1△(α⃗ )∫∏k=1Kpn(k)d+αk−1kdθ⃗ d=△(n⃗ d+α⃗ )△(α⃗ )(1)(2)(3)(4)(5)(1)p(z→d|α→)=∫p(z→d|θ→d)p(θd|α→)dθ→d(2)=∫∏k=1Kpknd(k)Dirichlet(α→)dθ→d(3)=∫∏k=1Kpknd(k)1△(α→)∏k=1Kpkαk−1dθ→d(4)=1△(α→)∫∏k=1Kpknd(k)+αk−1dθ→d(5)=△(n→d+α→)△(α→)

　　　　其中，在第d個文件中，第k個主題的詞的個數表示為：

n_{d}^{(k)}

n⃗ d=(n(1)d,n(2)d,...n(K)d)n→d=(nd(1),nd(2),...nd(K))

　　　　有了單一一個文件的主題條件分佈，則可以得到所有文件的主題條件分佈為：

p(z⃗ |α⃗ )=∏d=1Mp(z⃗ d|α⃗ )=∏d=1M△(n⃗ d+α⃗ )△(α⃗ )p(z→|α→)=∏d=1Mp(z→d|α→)=∏d=1M△(n→d+α→)△(α→)

　　　　同樣的方法，可以得到，第k個主題對應的詞的條件分佈

p (\vec{w} | \vec{z}, \vec{η})

p(w

文字主題模型之LDA(二) LDA求解之Gibbs取樣演算法

1. Gibbs取樣演算法求解LDA的思路

2. 主題和詞的聯合分佈與條件分佈的求解

文字主題模型之LDA(二) LDA求解之Gibbs取樣演算法

文字主題模型之潛在語義分析（LDA:Latent Dirichlet Allocation）

文字主題模型之LDA(一) LDA基礎

文字主題模型之非負矩陣分解(NMF)

我是這樣一步步理解--主題模型(Topic Model)、LDA(案例程式碼)

gensim文字主題模型推薦

[算法系列之十二]字串匹配之蠻力匹配

Kaggle學習之路(二) —— Digit Recognizer之問題分析

機器學習主題模型之LDA引數求解——Gibbs取樣

機器學習之LDA主題模型演算法

NLP：主題模型LDA+SVM進行文字分類

Spark：聚類演算法之LDA主題模型演算法

文字主題抽取：用gensim訓練LDA模型

用scikit-learn學習LDA主題模型

初試主題模型LDA-基於python的gensim包

Spark機器學習(8)：LDA主題模型算法

LDA主題模型

LDA主題模型三連擊-入門/理論/代碼

在PYTHON中使用TMTOOLKIT進行主題模型LDA評估

LDA 主題模型通俗簡單講解

文字主題模型之LDA(二) LDA求解之Gibbs取樣演算法

1. Gibbs取樣演算法求解LDA的思路

2. 主題和詞的聯合分佈與條件分佈的求解

相關推薦