1. 程式人生 > >LDA相關論文彙總

LDA相關論文彙總

LDA理論

David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. J. Mach. Learn. Res.,3:993–1022, March 2003.

  • 開山之作

Rickjin. LDA數學八卦. 2013.2.8

  • 傳說中的“上帝擲骰子”的來源之處。這篇文章是一個連載的科普性部落格,作者是rickjin,文章分為7個章節,主要5個章節講得是Gamma函式、Beta/Dirichlet函式、MCMC和Gibbs取樣、文字建模、LDA文字建模,對於想要了解和LDA的同學來說,是一篇很好的入門教程,建議結合Blei的開山之作一起看。


LDA優化改進

Ian Porteous, David Newman, Alexander Ihler, Arthur Asuncion, Padhraic Smyth, and Max Welling. Fast collapsed gibbs sampling for latent dirichlet allocation. InProceeding of the 14th ACM SIGKDD inter-national conference on Knowledge discovery and data mining, KDD ’08, pages 569–577, New York, NY, USA, 2008. ACM.

  • 快速推理演算法

Matthew Hoffman, David M. Blei, and Francis Bach. Online learning for latent dirichlet allocation. In NIPS, 2010.

  • 線上學習

Arindam Banerjee and Sugato Basu. Topic Models over Text Streams: A Study of Batch and Online Unsupervised Learning. InSDM. SIAM, 2007.

  • 文字流推理

Limin Yao, David Mimno, and Andrew McCallum. Efficient methods for topic model inference on stream-ing document collections.

 In Proceedings of the 15th ACM SIGKDD international conference on Knowl-edge discovery and data mining, KDD ’09, ages 937–946, New York, NY, USA, 2009. ACM.

  • 文字流推理

Feng Yan, Ningyi Xu, and Yuan Qi. Parallel inference for latent dirichlet allocation on graphics processing units. InNIPS, 2009.

  • 分散式學習

D. Newman, A. Asuncion, P. Smyth, and M. Welling. Distributed Inference for Latent Dirichlet Allocation. 2007.

  • 分散式學習

Zhiyuan Liu, Yuzhou Zhang, Edward Y. Chang, and Maosong Sun. Plda+: Parallel latent dirichlet allocation with data placement and pipeline processing. ACM Trans. Intell. Syst. Technol., 2:26:1–26:18, May 2011.

  • 分散式學習

Arthur Asuncion, Padhraic Smyth, and Max Welling. Asynchronous distributed learning of topic models. In NIPS, pages 81–88, 2008.

  • 分散式學習

T. L. Griffiths and M. Steyvers. Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April 2004.

  • 主要介紹LDA的引數優化,經驗性alpha,beta取值方法。


LDA變形

1、打破原有可交換的假設

David M. Blei and John D. Lafferty. A correlated topic model of science. AAS, 1(1):17–35, 2007.

  • Blei的大作,引入了主題之間的關聯

Wei Li and Andrew McCallum. Pachinko allocation: Dag-structured mixture models of topic correlations. InICML, 2006.

  • 引入了主題之間的關聯

Jonathan Chang and David Blei. Relational topic models for document networks. InAIStats, 2009.

  • 引入了文件之間的關聯

Xuerui Wang, Andrew McCallum, and Xing Wei. Topical n-grams: Phrase and topic discovery, with an application to information retrieval. InProceedings of the 2007 Seventh IEEE International Conference on Data Mining, pages 697–702, Washington, DC, USA, 2007. IEEE Computer Society

  • 考慮了詞與詞之間的順序

Yue Lu and Chengxiang Zhai. Opinion integration through semi-supervised topic modeling. InProceeding of the 17th international conference on World Wide Web, WWW ’08, pages 121–130, New York, NY, USA, 2008. ACM

  • 在優化公式的基礎上的改進,增加先驗資訊來區別不同的主題

Qiaozhu Mei, Deng Cai, Duo Zhang, and ChengXiang Zhai. Topic modeling with network regularization. InProceeding of the 17th international conference on World Wide Web, WWW ’08, pages 101–110, New York, NY, USA, 2008. ACM.

  • 增加規則化因子,引入一些關聯資訊和驗證資訊

2、基於非引數貝葉斯方法的變形

Y. W. Teh. Dirichlet processes. InEncyclopedia of Machine Learning. Springer, 2010.

  • 基於DIrichlet Process的變形

Y. W. Teh, M. I. Jordan, M. J. Beal, and D. M. Blei. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101(476):1566–1581, 2006.

  • 基於Dirichlet Process的變形,即HDP模型,可以自動的學習出主題的數目。該方法:① 在一定程度之上解決了主題模型中自動確定主題數目這個問題, ② 代價是必須小心的設定、調整引數的設定, ③ 實際中運行復雜度更高,程式碼複雜難以維護。 所以在實際中,往往取一個折中,看看自動確定主題數目這個問題對於整個應用的需求到底有多嚴格,如果經驗設定就可以滿足的話,就不用採用基於非引數貝葉斯的方法了,但是如果為了引入一些先驗只是或者結構化資訊,往往非引數是優先選擇,例如樹狀層次的主題模型和有向無環圖的主題模型

Yee Whye Teh. A hierarchical bayesian language model based on pitman-yor processes. InProceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Asso-ciation for Computational Linguistics, ACL-44, pages 985–992, Stroudsburg, PA, USA, 2006. Association for Computational Linguistics.

  • 基於Pitman-Yor Process的非引數貝葉斯方法

Issei Sato and Hiroshi Nakagawa. Topic models with power-law using pitman-yor process. InProceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’10, pages 673–682, New York, NY, USA, 2010. ACM.

  • 基於Pitman-Yor Process的非引數貝葉斯方法

3、從無結構化資訊到結構化或者半結構化的資訊

David M. Blei and Jon D. McAuliffe. Supervised topic models. InNIPS, 2007.

  • 提出關聯主題學習和響應變數(例如使用者評分,文件類標,或者時間標籤等)

David Mimno and Andrew McCallum. Topic models conditioned on arbitrary features with dirichlet-multinomial regression. InUAI, 2008.

  • 通過引入一個log-linear先驗在文件-主題分佈上,可以將主題抽取關聯到文件的metadata等等多種特徵(例如作者、時間等)


LDA應用

1、情感分析

Ivan Titov and Ryan McDonald. Modeling online reviews with multi-grain topic models. In Proceeding of the 17th international conference on World Wide Web, WWW ’08, pages 111–120, New York, NY, USA, 2008. ACM.

  • 從使用者評論資料中進行無監督主題抽取,考慮了一個多級背景主題模型:詞~句子~段落~文件,解決了傳統LDA模型提出的主題往往對應品牌而不是可以ratable的主題。

Ivan Titov and Ryan McDonald. A joint model of text and aspect ratings for sentiment summarization. In Proceedings of ACL-08: HLT, pages 308–316, Columbus, Ohio, June 2008. Association for Computational Linguistics.

  • 本文將一些具有結構化資訊的特徵融入到主題模型中,具體來說,我們同時關聯兩個生成過程,一個就是文件中詞的生成,另一個就是這些結構化特徵的生成。

Qiaozhu Mei, Xu Ling, Matthew Wondra, Hang Su, and ChengXiang Zhai. Topic sentiment mixture: modeling facets and opinions in weblogs. InProceedings of the 16th international conference on World Wide Web, WWW ’07, pages 171–180, New York, NY, USA, 2007. ACM.

  • 本文考慮區分情感和主題兩種不同型別的詞彙,進而同時抽取主題和觀點。對所有的主題,設定一系列共有的情感語言模型。

Chenghua Lin and Yulan He. Joint sentiment/topic model for sentiment analysis. InProceeding of the 18th ACM conference on Information and knowledge management, CIKM ’09, pages 375–384, New York, NY, USA, 2009. ACM.

  • 在抽取主題詞彙和情感詞彙之後,通過計算每個文件整體的情感傾向,進行文件情感分類。

Xin Zhao, Jing Jiang, Hongfei Yan, and Xiaoming Li. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid. InProceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 56–65, Cambridge, MA, October 2010. Association for Computational Linguistics.

  • 如何生成基於主題的情感摘要

2、學術文章挖掘

Michal Rosen-Zvi, Tom Griffiths, Mark Steyvers, and Padhraic Smyth. The author-topic model for authors and documents. InUAI, 2004.

  • 從作者的角度考慮文件主題的生成。對於每一個作者不再限定該作者只能對應一個主題,而是對應於一個主題上的分佈。

Ramesh M. Nallapati, Amr Ahmed, Eric P. Xing, and William W. Cohen. Joint latent topic models for text and citations. InProceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’08, pages 542–550, New York, NY, USA, 2008. ACM

  • 第一個提出同事對於主題和參考引用進行建模的文章。其基本思想就是首先分別對於文字採用之前標準的主題模型的生成方式,然後對於任何一對具有引用關係的文件對,根據文件-主題分佈的相似性生成引用連結關係。將文字和連結之間的關聯通過主題分佈建立對應關係。

T. L. Griffiths and M. Steyvers. Finding scientific topics. Proceedings of the National Academy of Sciences, 101(Suppl. 1):5228–5235, April 2004.

  • 基於主題模型來進行學術語料分析。主要分析了哪些主題是熱主題,哪些主題是冷主題,然後分析了這些主題隨著時間的發展的強度變化,其中主要使用了平均的文件-主題分佈來計算強度。

Ding Zhou, Xiang Ji, Hongyuan Zha, and C. Lee Giles. Topic evolution and social interactions: how authors effect research. InProceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, pages 248–257, New York, NY, USA, 2006. ACM.

  • 分析了作者是如何影響主題進化的。文章認為主題的進化是作者與作者之間的互動帶來的,提出了一個馬爾科夫模型來對於這種機遇作者互動的話題互動進行建模,並且應用這個模型分析了一些有意思的問題,如對於一個給定的主題進化,是哪些作者主導了變化呢?

Gideon S. Mann, David Mimno, and Andrew McCallum. Bibliometric impact measures leveraging topic analysis. InProceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, JCDL ’06, pages 65–74, New York, NY, USA, 2006. ACM.

  • 提出了使用主題模型進行細粒度的文章影響力的分析,主要是提出了一些計算度量來對學術研究進行分析,例如引用數目、主題影響因子等等。

3、社會媒體

Wayne Xin Zhao, Jing Jiang, Jianshu Weng, Jing He, Ee-Peng Lim, Hongfei Yan, and Xiaoming Li. Comparing twitter and traditional media using topic models. InECIR, pages 338–349, 2011.

  • 提出了一種用於短文字的Twtter-LDA模型

4、時序文字流

David M. Blei and John D. Lafferty. Dynamic topic models. In ICML, 2006.

  • Blei先生提出的動態LDA,主要是將時間離散化,採用批處理的方法

Xuerui Wang and Andrew McCallum. Topics over time: a non-markov continuous-time model of topical trends. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’06, pages 424–433, New York, NY, USA, 2006. ACM.

  • 本文認為對於一個文字,除了文字資訊可見,標籤資訊也是可見的,然後通過主題分佈資訊來同時關聯起來詞彙和時間標籤。

Xuanhui Wang, ChengXiang Zhai, Xiao Hu, and Richard Sproat. Mining correlated bursty topic patterns from coordinated text streams. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007

  • 提出偵測多個流中的bursty主題,採用兩個方法:使用前後時間段內部主題進行平滑;不同流之間主題相互加強。

Qiaozhu Mei and ChengXiang Zhai. Discovering evolutionary theme patterns from text: an exploration of temporal text mining. InProceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, KDD ’05, pages 198–207, New York, NY, USA, 2005. ACM.

  • 顯式的提出了文字流中的主題時序進行分析。本文使用了相對簡單的方法,首先劃分資料段,然後分段學習得到主題集合,然後根據在連續的兩個時間段內的主題相似度對其建立連結關係。

5、網路結構資料

Jonathan Chang and David Blei. Relational topic models for document networks. InAIStats, 2009.

  • Blei提出的Relational topic model(RTM)模型。

Qiaozhu Mei, Deng Cai, Duo Zhang, and ChengXiang Zhai. Topic modeling with network regularization. InProceeding of the 17th international conference on World Wide Web, WWW ’08, pages 101–110, New York, NY, USA, 2008. ACM.

  • 提出了使用網路規則化因子在主題模型中