1. 程式人生 > >LDA論文學習筆記

LDA論文學習筆記

以下內容節選自David M. Blei的論文《Latent Dirichlet Allocation》主要是選自LDA的處理流程部分,可能理解上有很大的偏差,或者表達上有問題,如有誤導還想大家多多指教
 LDA原始論文連結為:http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf



LDA中關於詞,文件,語料的定義:
1.  詞(word)是基本的離散資料單元,對詞的展示是使用向量,如果詞典裡面有對應的某個詞,則為1,否則為0。
2.  文件是N個詞的序列,和上面的詞有直接的關係,用w表示。
3.  語料是M個文件的集合,用D表示。
LDA的目標是找一個概率模型的語料集合,不僅將高概率的詞分配給語料的成員,還將高概率的詞分配給相似的文件。LDA是語料的生成概率模型,他的基本思想是文件是一些潛在的主題的隨機組合,並且主題在詞上也滿足一定的分佈。 
對於語料D中的每一個文件w,LDA按如下的處理流程:
1.根據Poisson分佈選擇詞N 
2.根據Dirichlet分佈選擇主題cita 
3.對每個文件w(下標n)中的詞
(a)  從滿足多項式分頁的cita中選擇一個主題Z 。
(b)  在多項式的條件概率分佈和主題的情況下選擇文件w(下標n)的詞。
 
以上的基本模型有以下的假設:
1.      Dirichlet分佈的維度k是可知並且不變的
2.      詞的概率是一個固定的數值,並且是一個滿足(k,V)的概率矩陣。
3.      Poisson分佈是一個假設分佈,可以根據文件長度的的實際分佈做調整。
4.      每個文件是相互獨立於其它的資料生成變數cita和Z。
 
以下是對論文公式的註釋