1. 程式人生 > >LDA︱基於LDA的Topic Model變形+一些NLP開源專案

LDA︱基於LDA的Topic Model變形+一些NLP開源專案

基於LDA的Topic Model變形最近幾年來,隨著LDA的產生和發展,湧現出了一批搞Topic Model的牛人。我主要關注了下面這位大牛和他的學生:
David M. BleiLDA的創始者,04年博士畢業。一篇關於Topic Model的博士論文充分體現其精深的數學概率功底;而其自己實現的LDA又可體現其不俗的程式設計能力。說人無用,有論文為證:
  • J. Chang and D. Blei. Relational Topic Models for Document NetworksArtificial Intelligence and Statistics, 2009. [PDF]
       基本LDA模型,當然假設文件之間是可交換的,那麼在原始的LDA中文件之間其實是認為條件獨立的。而在實際情況中,往往不是這個樣子的,文件間也許會存 在“social network”的這樣的網路性質。如何結合內容和“social network”這兩個特徵也許是一個非常有意思的話題。這篇論文就是給出了一個解決方法。它為兩個文件之間增加了一個二元隨機變數,根據其內容特徵,來 刻畫這種隱含的連結關係。

       關於顯示的連結關係是過去今年內,人們追逐研究的物件,進而產生PageRank、HITS等等一大批優秀的連結關係演算法。那麼如何利用隱含的連結呢?什 麼是隱含的連結呢?一個最簡單的隱含連結就是基於內容相似度構建的圖。這個被人們用的不亦樂乎,比如在文摘中的LexRank等。O Kurland在SIGIR中發了兩篇大概都是類似的文章,本質思想貌似就是在利用內容之間的“超連結”。
       另外一個比較新穎的研究點,就是如何基於“social network”來挖掘內容特徵? Mei Qiaozhu的一篇論文就是利用“social network”的網路結構特徵最為規則化因子,重新修正了原始的PLSA模型。想法非常的新穎。

  • D. Blei and J. Lafferty. Topic Models. In A. Srivastava and M. Sahami, editors, Text Mining: Theory and Applications. Taylor and Francis, in press. [PDF]
    這篇論文是一篇綜述性的大製作的論文,Blei在裡面深入淺出的介紹了什麼是Topic Model以及他早期的一些Topic Model的變形。值得大家去閱讀。

  • J. Boyd-Graber and D. Blei. Syntactic Topic ModelsNeural Information Processing Systems
    , 2009. [PDF] [Supplement]
   原始的LDA考察兩個詞只是基於共現的角度。而實際情況中,這種共現往往是不能夠精確地刻畫一些句子結構資訊或者說詞義資訊。如何把這種資訊引入。考慮 更深層的生成模型是目前一個熱點。這篇論文著眼於一個句子的句法分析的生成過程,它認為每個句子的生成都是基於“parse tree”的,整個概率生成過程完全附著在“parse tree”上了。並且每個句子內,不同的詞都有可能去選擇更適合自己的Topic。
   
  • D. Blei, J. McAuliffe. Supervised topic models. In Advances in Neural Information Processing Systems 21, 2007. 
    [PDF]
     [digg data]
   現如今,網路資料除了純內容外,往往還有其他一寫輔助資訊,如使用者對於某博文的評價或者說使用者對於某商品的評價。一個最典型的例子,就是說在噹噹買書 後,你可以給該書的質量進行打分:5星代表最好,4星代表比較好,。。。依次類推。那麼如何把這些資訊加入原始的LDA中呢? Blei為其引入了一個response變數因子,該因子條件依賴於該文件的topic distribution。

    如何把ratable information和內容有機地結合起來也是最近的一個研究熱點。大多數方法還都是,建立一個ratable response variable,然後該變數條件依賴於內容或者說Topic資訊。

  • J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation. In Empirical Methods in Natural Language Processing, 2007. [PDF]
    這篇論文對應的一個大背景是把Topic Model應用到自然語言處理中,具體內容我沒太看,主要是結合了WordNet的結構特徵,在此基礎上產生的圖模型。
    此外的一些工作還有把Topic Model用來文摘和詞性標註中的。應用到這些問題的兩個主要思路:第一個就是用Topic Model去學習出一些compact features,然後在次基礎上利用分類器等機器學習方法;另外一種就是利用原始NLP問題的一些結構資訊,比如剛才所說的WordNet中的網路結 構,在這個結構特徵中推匯出整個圖模型的概率生成過程。

  • D. Blei and J. Lafferty. A correlated topic model of Science. Annals of Applied Statistics. 1:1 17–35. [PDF] [shorter version from NIPS 18] [code][browser]
   還沒有認真看,這個其實打破了原來topic之間的可交換性。

  • D. Blei and J. Lafferty. Dynamic topic models. In Proceedings of the 23rd International Conference on Machine Learning, 2006. [PDF]
   也沒有仔細看,把Topic Model和時間維度結合了起來。Mei Qiaozhu也有一篇是研究話題內容隨著時間變化的論文,但是是基於PLSI和HMM來完成的。
    
  • T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax. In Advances in Neural Information Processing Systems 17, 2005. [PDF]
   這篇論文是一篇非常優秀的論文,開篇詳細地敘述了詞的不同功能分類,也叫做HMM-LDA模型。正如每個人存在都有其社會意義,那麼詞存在對於文字語義 的表述也有著不同的角色。作者把詞分為了兩大功能:第一個就是semantic功能,也就是之前我們所有的Topic word;另一個功能就是說語法功能,也就是說這些詞的存在是為了讓整個句子的生成過程看起來更像一個完整體或者說更符合語言規範。T. Griffiths和M. Steyvers是兩個很優秀的學者,他們開發了topic model工具包,並且也有一堆的牛論文。

  • D. Blei. Probabilistic Models of Text and Images. PhD thesis, U.C. Berkeley, Division of Computer Science, 2004. [PDF]
   Blei的博士論文,我至今還沒有看完,因為一直糾結在那個Varitional inference的推導。自己責備一下自己。

  • D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003. [A shorter version appeared in NIPS 2002]. [PDF] [code]
        LDA的第一篇文章,不算很好讀懂。初次閱讀時,一般會遇到可交換性、variational inference、simplex等等細節問題。經典中的經典。

  • D. Blei and P. Moreno. Topic segmentation with an aspect hidden Markov model. In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 343–348. ACM Press, 2001. [PDF]
   SIGIR中的一篇關於分段的論文。其實分段這個事情在現實中需求量比較大,但是成熟的工具包並不多,或者我不知道。比較好的成熟的演算法一般還是基於語 義斜率的變化來計算的。在次召喚下懂這方面的大牛推薦幾個好用的工具。與分段關聯很緊密的一個問題就是網頁正文抽取,同樣也是這個問題,發論文的多,但是 實際release出來程式碼的很少。比較著名的,如VIPS,但是我沒有用過。昨天發現VIPS的作者原來也是一個巨牛的中國人,Deng Cai。之前是清華學生,現在師從Jiawei Han,各種牛會議和牛期刊發了N多的文章。在此膜拜一下。