LDA論文學習筆記
阿新 • • 發佈:2018-12-29
以下內容節選自David M. Blei的論文《Latent Dirichlet Allocation》主要是選自LDA的處理流程部分,可能理解上有很大的偏差,或者表達上有問題,如有誤導還想大家多多指教。
LDA原始論文連結為:http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
LDA中關於詞,文件,語料的定義:
1. 詞(word)是基本的離散資料單元,對詞的展示是使用向量,如果詞典裡面有對應的某個詞,則為1,否則為0。
2. 文件是N個詞的序列,和上面的詞有直接的關係,用w表示。
3. 語料是M個文件的集合,用D表示。
LDA的目標是找一個概率模型的語料集合,不僅將高概率的詞分配給語料的成員,還將高概率的詞分配給相似的文件。LDA是語料的生成概率模型,他的基本思想是文件是一些潛在的主題的隨機組合,並且主題在詞上也滿足一定的分佈。
對於語料D中的每一個文件w,LDA按如下的處理流程:
1.根據Poisson分佈選擇詞N
2.根據Dirichlet分佈選擇主題cita
3.對每個文件w(下標n)中的詞
(a) 從滿足多項式分頁的cita中選擇一個主題Z 。
(b) 在多項式的條件概率分佈和主題的情況下選擇文件w(下標n)的詞。
以上的基本模型有以下的假設:
1. Dirichlet分佈的維度k是可知並且不變的
2. 詞的概率是一個固定的數值,並且是一個滿足(k,V)的概率矩陣。
3. Poisson分佈是一個假設分佈,可以根據文件長度的的實際分佈做調整。
4. 每個文件是相互獨立於其它的資料生成變數cita和Z。
以下是對論文公式的註釋