LDA︱基於LDA的Topic Model變形+一些NLP開源專案
阿新 • • 發佈:2019-01-07
基於LDA的Topic Model變形最近幾年來,隨著LDA的產生和發展,湧現出了一批搞Topic Model的牛人。我主要關注了下面這位大牛和他的學生:
David M. BleiLDA的創始者,04年博士畢業。一篇關於Topic Model的博士論文充分體現其精深的數學概率功底;而其自己實現的LDA又可體現其不俗的程式設計能力。說人無用,有論文為證:
關於顯示的連結關係是過去今年內,人們追逐研究的物件,進而產生PageRank、HITS等等一大批優秀的連結關係演算法。那麼如何利用隱含的連結呢?什 麼是隱含的連結呢?一個最簡單的隱含連結就是基於內容相似度構建的圖。這個被人們用的不亦樂乎,比如在文摘中的LexRank等。O Kurland在SIGIR中發了兩篇大概都是類似的文章,本質思想貌似就是在利用內容之間的“超連結”。
另外一個比較新穎的研究點,就是如何基於“social network”來挖掘內容特徵? Mei Qiaozhu的一篇論文就是利用“social network”的網路結構特徵最為規則化因子,重新修正了原始的PLSA模型。想法非常的新穎。
如何把ratable information和內容有機地結合起來也是最近的一個研究熱點。大多數方法還都是,建立一個ratable response variable,然後該變數條件依賴於內容或者說Topic資訊。
此外的一些工作還有把Topic Model用來文摘和詞性標註中的。應用到這些問題的兩個主要思路:第一個就是用Topic Model去學習出一些compact features,然後在次基礎上利用分類器等機器學習方法;另外一種就是利用原始NLP問題的一些結構資訊,比如剛才所說的WordNet中的網路結 構,在這個結構特徵中推匯出整個圖模型的概率生成過程。
David M. BleiLDA的創始者,04年博士畢業。一篇關於Topic Model的博士論文充分體現其精深的數學概率功底;而其自己實現的LDA又可體現其不俗的程式設計能力。說人無用,有論文為證:
- J. Chang and D. Blei. Relational Topic Models for Document Networks. Artificial Intelligence and Statistics, 2009. [PDF]
關於顯示的連結關係是過去今年內,人們追逐研究的物件,進而產生PageRank、HITS等等一大批優秀的連結關係演算法。那麼如何利用隱含的連結呢?什 麼是隱含的連結呢?一個最簡單的隱含連結就是基於內容相似度構建的圖。這個被人們用的不亦樂乎,比如在文摘中的LexRank等。O Kurland在SIGIR中發了兩篇大概都是類似的文章,本質思想貌似就是在利用內容之間的“超連結”。
另外一個比較新穎的研究點,就是如何基於“social network”來挖掘內容特徵? Mei Qiaozhu的一篇論文就是利用“social network”的網路結構特徵最為規則化因子,重新修正了原始的PLSA模型。想法非常的新穎。
- D. Blei and J. Lafferty. Topic Models. In A. Srivastava and M. Sahami, editors, Text Mining: Theory and Applications. Taylor and Francis, in press. [PDF]
- J. Boyd-Graber and D. Blei. Syntactic Topic Models. Neural Information Processing Systems
- D. Blei, J. McAuliffe. Supervised topic models. In Advances in Neural Information Processing Systems 21, 2007.
如何把ratable information和內容有機地結合起來也是最近的一個研究熱點。大多數方法還都是,建立一個ratable response variable,然後該變數條件依賴於內容或者說Topic資訊。
- J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation. In Empirical Methods in Natural Language Processing, 2007. [PDF]
此外的一些工作還有把Topic Model用來文摘和詞性標註中的。應用到這些問題的兩個主要思路:第一個就是用Topic Model去學習出一些compact features,然後在次基礎上利用分類器等機器學習方法;另外一種就是利用原始NLP問題的一些結構資訊,比如剛才所說的WordNet中的網路結 構,在這個結構特徵中推匯出整個圖模型的概率生成過程。
- D. Blei and J. Lafferty. A correlated topic model of Science. Annals of Applied Statistics. 1:1 17–35. [PDF] [shorter version from NIPS 18] [code][browser]
- D. Blei and J. Lafferty. Dynamic topic models. In Proceedings of the 23rd International Conference on Machine Learning, 2006. [PDF]
- T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax. In Advances in Neural Information Processing Systems 17, 2005. [PDF]
- D. Blei. Probabilistic Models of Text and Images. PhD thesis, U.C. Berkeley, Division of Computer Science, 2004. [PDF]
- D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003. [A shorter version appeared in NIPS 2002]. [PDF] [code]
- D. Blei and P. Moreno. Topic segmentation with an aspect hidden Markov model. In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 343–348. ACM Press, 2001. [PDF]