1. 程式人生 > >使用collapsed gibbs sampling對LDA中引數進行估計的推導過程

使用collapsed gibbs sampling對LDA中引數進行估計的推導過程

使用來表示文件--主題分佈的超引數,使用來表示主題--詞彙分佈的超引數,這些超引數的先驗分佈被定義在一個狄利克萊分佈中,如下所示:


在給定引數的情況下,所有隱變數(主題)的概率被定義在一個多項式分佈中,其中表示在文件m中,被賦給主題k的詞彙數量。

在給定引數的情況下,所有可觀測變數(單詞)的概率和所有的隱變數被定義在一個多項式分佈中,其中表示語料庫中單詞v被賦予主題z的次數。

注意,在以上兩個公式中,我們假設在給定引數的情況下,所有變數均獨立於超引數。

在給定超引數的情況下,所有變數(包括引數)的聯合分佈被定義如下:


在獲取這個聯合概率後,我們準備積分掉所有的引數:



最終所得內容使用了公式8(也即公式9上面的推導內容)的結果,同時也使用了gamma公式的一個重要性質: