LDA論文學習筆記

阿新 • • 發佈：2018-12-29

以下內容節選自David M. Blei的論文《Latent Dirichlet Allocation》主要是選自LDA的處理流程部分，可能理解上有很大的偏差，或者表達上有問題，如有誤導還想大家多多指教。
LDA原始論文連結為：http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

LDA中關於詞，文件，語料的定義：
1．詞（word）是基本的離散資料單元，對詞的展示是使用向量，如果詞典裡面有對應的某個詞，則為1，否則為0。
2．文件是N個詞的序列，和上面的詞有直接的關係，用w表示。
3．語料是M個文件的集合，用D表示。
LDA的目標是找一個概率模型的語料集合，不僅將高概率的詞分配給語料的成員，還將高概率的詞分配給相似的文件。LDA是語料的生成概率模型，他的基本思想是文件是一些潛在的主題的隨機組合，並且主題在詞上也滿足一定的分佈。
對於語料D中的每一個文件w，LDA按如下的處理流程：
1．根據Poisson分佈選擇詞N
2．根據Dirichlet分佈選擇主題cita
3．對每個文件w(下標n)中的詞
(a) 從滿足多項式分頁的cita中選擇一個主題Z 。
(b) 在多項式的條件概率分佈和主題的情況下選擇文件w(下標n)的詞。

以上的基本模型有以下的假設：
1. Dirichlet分佈的維度k是可知並且不變的
2. 詞的概率是一個固定的數值，並且是一個滿足(k，V)的概率矩陣。
3. Poisson分佈是一個假設分佈，可以根據文件長度的的實際分佈做調整。
4. 每個文件是相互獨立於其它的資料生成變數cita和Z。

以下是對論文公式的註釋

LDA論文學習筆記

LDA論文學習筆記

《一種策略融合的跨語言文本情感傾向判別方法》論文學習筆記（大一下）

識別和追蹤主題層次的影響力者(來自2018 Machine Learning 論文學習筆記)

Lasso估計論文學習筆記(一)

Latent Dirichlet Allocation（LDA）學習筆記

RCNN、SPPnet、Fast-RCNN 論文學習筆記

PointNet++論文學習筆記

YOLOv2--論文學習筆記（演算法詳解）

論文學習筆記：曹哲實時多人人體姿態識別 CVPR2017

REST風格論文學習筆記

OCR系列論文學習筆記連結

目標追蹤演算法KCF（kernelized correlation filters）論文學習筆記

論文學習筆記 - Classifification of Hyperspectral and LiDAR Data Using Coupled CNNs

論文學習筆記 - 高光譜和 LiDAR 融合分類合集

學習筆記 | 學術論文寫作方法和技巧

R-CNN論文詳解（學習筆記）

論文閱讀筆記3——基於域適應弱監督學習的目標檢測Cross-Domain Weakly-Supervised Object Detection through Progressive Domain A

論文2016年《6D位姿估計的多視點自監督深度學習》在亞馬遜挑選的挑戰——學習筆記二

學習筆記2018-10-26 讀論文A single algorithm to retrieve turbidity from remotely-sensed data in all coastal

caffe學習筆記21-VggNet論文筆記

LDA論文學習筆記

相關推薦