概率主題模型簡介,LDA基本思想
摘要:概率主題模型是一系列旨在發現隱藏在大規模文件中的主題結構的演算法。本文首先回顧了這一領域的主要思想,接著調研了當前的研究水平,最後展望某些有所希望的方向。從最簡單的主題模型——潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)出發,討論了其與概率建模的聯絡,描述了用於主題發現的兩種演算法。主題模型日新月異,被擴充套件和應用許多領域,其中不乏有趣之處。我們調研發現很多擴充套件都弱化了LDA的統計假設,加入元資料(meta-data)進行文件分析,使用近似的模型分析如社會網路、影象和基因這類多樣化的資料型別。我們在文章的最後給出了主題模型目前還未探索但很重要的方向,包括嚴格檢驗資料模型的方法,文字和其它高維資料視覺化的新技術,以及如何從傳統資訊工程中的應用推廣到更多科學應用。
1 引言
如今公開的知識日益以新聞、部落格、網頁、科學論文、書籍、影象、聲音、視訊和社交網路的形式被數字化儲存,巨大的資訊量同時也增加了人們尋找和發現自己所需要的知識的難度。人們需要新的計算工具以組織、搜尋和理解這些龐大的資訊量。現在的線上資訊挖掘使用兩種主要的工具——搜尋和連結。向搜尋引擎提交關鍵詞就可以找到相關的文件和其它相連結的文件。這種與線上文件的互動方式雖然有效,但卻丟失了某些資訊。
假設所要搜尋和尋找的文件由各類主題組成。這樣,通過對文章進行“放大”和“縮小”就可以得到較具體或者較粗略的主題;在文件中就可以看到這些主題是如何隨著時間變化,或者說是如何相互聯絡的。搜尋文件就不只是通過關鍵詞尋找,取而代之的是先找到相關的主題,然後再查詢與這一主題相關的文件。
拿紐約時報所記載的歷史舉例。從較廣的層次來看,報紙中的主題就對應著報紙各個版塊——對外政策、國內事務、體育,再拿對外政策進行“放大”,就可以得到其不同方面——中國對外政策、中東衝突、英國與俄羅斯的關係。接下來,我們跟蹤這些專題是如何隨著時間演變的,例如過去50年裡的中東衝突。如此這般探索就能找到與主題相關的原始文件。可見,這種主題結構是探索和理解文件的新視窗。
但以這種方法與電子文件進行互動是不現實的,因為隨著網上文字的數量越來越多,單單僅靠人力已經無法全部閱讀和研究所有的文字。由此,概率主題建模應運而生。機器學習領域的研究人員們開發出了一套旨在發現和標記大規模文件的主題資訊的演算法。主題建模演算法是一種統計方法,它通過分析原文字中的詞以發現蘊藏於其中的主題,主題間的聯絡,以及主題隨時間的演變(就比如後面圖3,通過分析耶魯法律找到主題),而且不需要事前對文件進行標記。也就是說,人力所無法完成的文件標記,主題建模演算法能夠進行組織和歸納。
2 潛在狄立克雷分配
潛在狄立克雷分配(LDA)是最簡單的主題模型,其基礎是文件是由多個主題構成的。如圖1所示,《Seeking Life’s Bare(Genetic) Necessities》是一篇對基因數量進行資料分析的文章(基因是有機體賴以進化的基礎)。
圖1:潛在狄立克雷分配的直觀現象。如圖左所示,假設主題是詞語上的概率分佈;圖右是主題直方圖。從直方圖到文章的詞的過程是這樣的:首先隨機產生一個主題直方圖,然後選擇其中一主題,最後從該主題對應的主題分佈中選擇一個詞。這裡的主題和主題直方圖只作說明之用,與文章其實並不相匹配。相匹配的主題見圖2。
文章中不同的詞被高亮在不同的顏色。如“computer”和“prediction”之類有關資料分析的詞以藍色標記;如“life”和“organism”之類關於進化生物學的詞以粉紅色標記;如“sequenced”和“genes”之類有關遺傳學的詞以黃色標記。將所有詞語進行這樣的標記,並剔除“and”、“but”和“if”這類包含極少主題內容的詞語後可以發現,這篇文章由不同主題以不同的比例組成,更進一步地看,多個主題可以幫助人們在一堆科技論文中發現這篇文章。
建立在文件集合上的統計模型LDA就試圖描述上述直觀的現象。LDA可以看作是一個文件產生的過程(2.1節將具體解釋概率模型LDA)。形式化地定義主題是固定的詞語的概率分佈。例如,“遺傳學”主題中“genes”的概率就相當高,類似地,“進化生物學”主題中“life”的概率也相對較高。假設所有的主題在文件產生之前就已經產生且指定。生成文件(或者說生成文件中的詞)可以看成是如下兩個過程:
- 隨機產生一個主題直方圖(或者說分佈);
- 對文件中的每個詞:
- (a) 從第一步產生的直方圖裡隨機選擇一個主題;
- (b) 從主題對應的詞語的概率分佈中隨機選擇一個詞。
從文件產生的過程來看,第一步使得每篇文件由不同主題以不同比例組成。第二步的第二小步(b)使得每篇文件中每個詞從一個主題中得來,其中的主題從第一小步(a)得來。實際上,第一步主題直方圖(或者說分佈)是一個狄立克雷分佈(Dirichlet distribution),其作用是將文件中的詞分配給不同的主題,那為什麼是潛在的呢?且聽後面分解。
對圖1所示的文章來說,主題直方圖中主題“遺傳學”、“資料分析”和“進化生物學”都會佔一定比例,文章中每個詞都由這三個主題中的一個所給出。文件集中也可能會有一篇關於“資料分析”和“神經科學”;其主題直方圖中這兩個主題都將佔有一定的比例;這就是潛在狄立克雷分配的顯著特徵——集合中所有文件共享同一主題集合,但每個文件中各個主題所佔的比例又都各不相同。
如前引言所述,主題建模的目的是為了自動地發現文件集中的主題。文件自然是可被觀察到的,但主題結構——主題、主題直方圖(或者分佈)和主題的詞分佈——卻是隱藏的。所以主題建模的中心問題就是利用看到的文件推斷出隱藏的主題結構,其實也就是產生文件的逆過程。
圖2:圖1的LDA。我們從《自然》上的17000篇文章提取100個主題及其相關詞,然後對圖1所示的文章進行分析,左邊是主題所佔比例的直方圖,右邊是文章常見主題的最常出現的前15個詞。
如圖2所示,就是一個推斷圖1中文章的例子。使用主題建模演算法(假設有100個主題)推斷《科學》上17000篇文章的潛在主題結構,然後推斷出最能描述圖1中示例文章的主題分佈(圖左)。需要注意的是,儘管主題分佈上有無窮個主題,但事實上只有其中的一小部分的概率不為零。進一步地,文章中詞可被分主題進行組織,可以看到最常見的主題所包含的概率最大的詞。
需要強調的是,演算法事先並不知道這些主題,文章也未有關鍵詞或主題標記。計算潛在結構得到的主題分佈可以產生所觀察到的文件集合(由推斷演算法產生的主題對所分析的文件集合幾乎都具有可解釋性,主題似乎與語言的統計結構和LDA的具體概率假設有關)。如圖3顯示了《Yale Law Journal》中發現的主題(這裡設定主題數為20)。主題由基因和資料分析替換為歧視和合同法。主題建模是管理、組織和標記大規模文字的一種演算法。推斷得到的隱藏結構近似於文件集的主題結構,能標記文件集中各個文件。這代替了痛苦的手工標記,並有助於資訊檢索,分類和語料庫搜尋。
2.1 LDA和概率模型
LDA和其它主題模型都屬於概率建模這一更大領域。資料被看作是經過包括隱藏變數在內的生成過程得到的。生成過程定義了觀測隨機變數和隱藏隨機變數的聯合概率分佈。通過使用聯合分佈來計算在給定觀測變數下隱藏變數的條件分佈(後驗分佈)來進行資料分析。對於LDA來說,觀測變數就是文件中的詞;隱藏變數就是主題結構;生成過程如之前所述。那麼推測從文件中隱藏的主題結構的問題其實就是計算在給定文件下隱藏變數的條件分佈(後驗分佈)。
形式化地定義如下:所有主題為β1:K,其中βk是第k個主題的詞的分佈(如圖1左部所示)。第d個文件中主題所佔的比例為θd,其中θd,k表示第k個主題在第d個文件中的比例(圖1右部的直方圖)。第d個文件的主題全體為zd,其中zd,n是第d個文件中第n個詞的主題(如圖1中有顏色的圓圈)。第d個文件中所有詞記為wd,其中wd,n是第d個文件中第n個詞,每個詞都是固定的詞彙表中的元素。那麼LDA的生成過程對應的觀測變數和隱藏變數的聯合分佈如下:
這一分佈指明變數之間的依賴關係。例如,zd,n依賴於θd,wd,n依賴於zd,n和β1:K(在操作上,先確定zd,n指的哪個主題,然後再看wd,n在主題中的概率)。正是這些依賴定義了LDA:它們存在於生成過程的統計假設裡,在聯合分佈的特定數學形式裡以及LDA的概率圖模型裡(概率圖模型為描述概率分佈提供一個圖形化的語言,如圖4所示。事實上概率圖模型是闡明概率獨立、圖理論和計算概率分佈的演算法的有力工具)。這三種表現形式在描述LDA的概率假設上是等價的。
圖4:LDA的圖模型。每個結點表示一個隨機變數,並且根據其在生成過程中的角色予以標記(見圖1)。隱藏變數對應的結點是白色的,觀測變數wd,n對應的結點是灰色的。在圖模型中,矩形表示變數的重複。
從歷史來看,潛在語義分析中最具開創性的研究是對文件詞矩陣進行奇異值分解得到詞之間,文件之間和文件與詞之間的潛在聯絡。概率潛在語義分析(probabilistic latent semantic analysis,pLSI)是它的概率版本,而LDA是用以解決pLSI的問題,可以看作是對離散資料進行主成分分析。下一章節將詳細描述LDA的推斷演算法。
2.2 LDA後驗概率的計算
使用前面的記號,LDA後驗概率的公式為
p(β1:K,θ1:D,z1:D|w1:D)=p(β1:K,θ1:D,z1:D,w1:D)p(w1:D) (2)
分子為隨機變數的聯合分佈。對於隱藏變數的任何值來說,聯合分佈是容易計算的。分母是觀測變數的邊際概率,是通過觀察可見的語料庫得到的概率。理論上,可以通過將聯合分佈對隱藏變數的所有可能值進行累加得到。但其計算量在實際操作中是異常龐大的(對於一個主題,這種累加包括了將每個詞的所有可能的主題配置,而且文件集合通常有數量級達百萬的詞)。就像眾多現代概率模型(包括貝葉斯統計)那樣,後驗概率的分母(即先驗概率)往往是無法計算得到的。故而現代概率建模的一個核心研究目標就是盡一切可能接近之。如前圖1和圖3所述的那樣,主題建模演算法其實是求得近似後驗分佈的常用方法的一種變種。
主題建模演算法主要有兩類:基於取樣的演算法和變分演算法。基於取樣的演算法通過收集後驗分佈的樣本,以樣本的分佈求得後驗分佈的近似。主題建模中最常用的取樣演算法是吉布斯取樣(Gibbs sampling),通過吉布斯取樣構造馬爾可夫鏈(Markov chain),而馬爾可夫鏈的極限分佈就是後驗分佈。馬爾可夫鏈是由獨立於前一個隨機變數的隨機變數組成的串。對主題模型來說,隨機變數就是定義在一個特定的語料庫上的隱藏主題。取樣演算法從馬爾可夫鏈的極限分佈上收集樣本,再用這些樣本來近似後驗分佈。通常,只有概率最高的樣本會被收集以作為主題結構的近似。文獻[33]詳細描述了LDA的吉布斯取樣,開源社群裡有R語言的快速開源實現(http://cran.r-project.org/web/packages/lda/index.html)。
變分演算法的確定性要比基於取樣演算法高上不少。變分演算法先假定一族在隱藏結構之上的引數化的分佈,再尋找與後驗分佈最接近的分佈(概率分佈之間的距離使用資訊理論的Kullback-Leibler散度度量,)。也就說,推斷問題轉換為了最優化問題。變分演算法的創新之處也正在於此,它將最優化引入了概率建模中。文獻[8]介紹了協調上升的變分推斷演算法;文獻[20]介紹了一個更為快速的線上演算法(以及開源軟體),它能輕鬆處理上百萬文件並能適應文字流的集合。
粗略地講,這兩種演算法都在主題結構上進行了搜尋,而固定的文件集合提供了搜尋的方向。哪種方法更適合取決於所使用的具體的主題模型(下面的章節會介紹除LDA以外的其它主題模型),而這通常是學院派們爭論的導火索。文獻[1]很好地討論了這兩種方法的優缺點。
3 主題建模的研究進展
簡單的LDA模型提供發現和探索大規模文字中隱藏主題結構的有力工具。LDA形式化為概率模型的一個主要優點在於它可以作為一個模組被其它更復雜的模組應用更為複雜的應用系統中。
3.1 弱化LDA的假設
LDA由對語料庫的統計假設定義,主題建模研究領域中一個熱點就是如何弱化和擴充套件這些假設以發現文字中更加複雜的結構。
如果不考慮詞在文件中的順序,那麼一個文件就是一個詞袋。“詞袋”就是LDA的一個假設(對於文件中詞的任意排列,式(1)都不變)。這個假設當然不符合現實,對於複雜的諸如語言生成之類的目標顯然是不合適的,但對發現文字語義結構是有理可循的(緩慢移動圖1文章中的詞,儘管詞移動了位置,文章仍然與遺傳學相關)。LDA上模型的不可交換的詞也有諸多擴充套件。例如,文獻[36]弱化了詞袋模型,假設主題生成詞時以前一個詞作為條件;文獻[18]提出了在LDA和隱馬爾可夫模型之間進行切換的主題模型。這些模型顯著地擴充套件了引數空間,並且顯示了語言建模帶來的效能提升。
LDA的另一個假設是文件的順序與LDA無關(對於文件的任意順序的排列,式(1)同樣不變)。但當文件集所跨越的時間有幾年或幾個世紀時,這個假設可能就不合理了。當遇到這樣的集合時,通常假設主題是隨著時間而發生變化的。這樣,主題就是動態的[5]。動態主題模型考慮了文件的先後順序,並給出了內涵比LDA更豐富後驗主題結構。圖5展示了使用動態主題模型分析所有科學雜誌得到的一個主題。這個主題就不只是詞的單一分佈,而是詞的一連串分佈。這樣,潛在的主題就可以被發現和跟蹤。
圖5:兩個主題的動態主題模型。這個模型的語料庫是1880年到2002年的《科學》雜誌。圖中每十年提取一些常見詞。
LDA的第三個假設是主題的數量已知且固定。貝葉斯非引數主題模型[34]提供了:在後驗推斷中文件集決定了主題數量,而且新文件中會有前面文件所沒有的主題。貝葉斯非引數主題模型可以通過資料推斷,擴充套件成一系列從較通用到較具體的主題層次,就像一棵主題樹一樣。
LDA還有弱化其它假設的擴充套件。相關主題模型[6]和彈球分配機器[24]將同時出現的主題視作相關(例如與地理有關的文件可能運動相關,但它更可能與化學相關);球狀主題模型[28]允許詞不太可能在主題中出現(例如,“扭傷”顯然不太可能出現有關“貓”的主題裡);稀疏主題模型進一步強化了主題分佈的結構[37];而“稠密”主題模型則是詞數的一個更符合實際的模型[15]。
3.2 結合元資料
在文字分析配置中,文件通常包含些諸如作者、題目、地理位置、連結等其它額外資訊。這些資訊可以被用於適配主題模型。目前如何結合這些元資料是百家爭鳴。
作者主題模型[29]是較早成功的例子。每個作者擁有一個主題直方圖;多個作者的論文中的詞由其中一個作者的主題直方圖決定。作者主題模型允許從作者或文件進行推斷。Rosen-Zvi等人在論文中展示利用作者的主題直方圖計算作者間的相似性的例子,而LDA是無法勝任這一工作的。又比如,由於許多文件集合通常是相互連結的(例如科技論文相互引用或者網頁相互連結),一些主題模型就考慮將那些連結用以估計主題。關係主題模型[13]假設所有文件都由LDA生成,文件間的連結取決於它們主題直方圖的距離。關係主題模型不僅是新的主題模型,而且是新的網路模型,其與傳統網路統計模型不同之處在於,它將用於為連結建模的節點屬性(文件的詞)考慮在內。
其它結合元資料的主題模型有語言結構模型[10],關注語料庫間的距離的模型[38],命名實體模型[26]。更一般的方法包括狄立克雷多項式迴歸模型[25]和監督主題模型[7]。
3.3 其他型別的資料
在LDA中,主題是詞上的離散分佈,並用於產生文件中的詞(觀測值)。LDA的一個優勢在於其主題引數和資料生成所用的分佈,它們經過微調就可以適配於其它型別的觀測值所對應的推斷演算法。LDA作為典型的主題模型,可以看作是分組資料的成員混合模型(mixed-membership model),而不只是將一組文件(觀測值)與一個主題(部件)相關。每組文件都以不同的比例包含著不同的主題。為了適配諸如調查資料、使用者偏好、聲頻和音樂、計算機程式碼、網路日誌和社交網路這些多種多樣的資料,LDA衍生出眾多模型來處理和分析之。下面介紹兩個成員混合模型已取得顯著成功的領域。
在群體遺傳學中,研究人員也獨立地開發出了相同的概率模型,用以在個體取樣得到的基因中尋找人類祖先(例如,人類從非洲、歐洲或中東等地起源)[27]。基本原理是每個個體的基因型是由一個或多個祖先群體遺傳的。生物學家們通過與LDA非常相似的模型,描述了在這些人群中的基因模式(即“主題”),並辨認出單個個體的基因組成(即“主題直方圖”)。這一模型如此有效的原因就在於即使具有“純種”祖先基因的個體不存在,其基因模式依然可以假設,並通過實驗得到。
LDA模型的推斷演算法還可用於自然影象的檢索、分類和組織,因此LDA也被廣泛地應用於計算機視覺中。研究者們已經從影象到文件做了一個直接的類比。在文件分析的假設中,每個文件包含多個主題,文件集中的所有文件共享同一個主題集。在影象分析的假設中,每副影象是多個視覺模式的組合,同一個視覺模式在影象集中不斷重現(預處理階段會分析影象以得到視覺模式(或者“視覺單詞”)的集合)。主題模型在計算機視覺中被用於影象分類[16],關聯影象和字幕[4],建立影象層次[2,23,31]等。
4 展望
主題模型是機器學習的新興領域,有很多新方向亟待探索。
評價和模型驗證 主題模型的評測和有效性脫節。一般的評價過程如下,首先取一部分語料做為測試集,然後從剩下的語料中訓練不同的主題模型,並在測試集上度量其近似性(例如概率),最後選擇效能最好的模型。但主題模型通常是用於組織、總結和幫助研究者探索大規模語料,技術上無法保證,準確性越高,組織性就越好或者解釋得就越簡單。主題建模的一個開放課題是與演算法使用相匹配的評測方法。那麼如何基於主題的解釋性來比較主題模型呢?這就是模型驗證問題,當面對一個新語料和新問題時,應該如何選擇主題模型呢?哪些建模假設對問題是重要的,哪些是不重要的?該如何試驗眾多已經開發的主題模型呢?這些問題引起了統計學家的興趣[9,30],但他們對機器學習處理的問題的規模認識不足。這些計算問題的新答案將是對主題模型的重要貢獻。
視覺化和使用者介面 主題模型另一個充滿希望的未來方向是開發與主題和語料庫互動的新方法。主題模型提供了探索大規模文字的新結構,那麼如何使用這一結構呢?一個問題就是如何展示主題。主題一般通過列舉其最常出現的詞來展示(如圖2),但選擇不同的詞展示或者以不同的方式來標記主題,可能會更有效。更進一步,如何更好地展示一個文件中的主題模型呢?從文件上來看,主題模型提供了文件結構的潛在的有用資訊。結合有效的主題標記,讀者可以辨認出文件中最感興趣的部分。此外,隱藏的主題直方圖隱式地將各個文件相互連線(考慮文件直方圖的距離)。如何顯示這些連線?整個語料與其推斷的主題結構的有效介面是什麼?
這些使用者介面問題對主題建模非常重要。主題建模演算法很有希望提示大規模文件的有意義的主題結構,但要讓它有用需要在資訊視覺化和使用者介面上多下工夫。
用主題模型進行資料發現 主題模型伴隨著資訊工程應用而來,主題模型作為統計模型應該能提供關於資料的資訊或者幫助建立假設。主題模型的後驗分佈提供了什麼資訊?這一問題已經出現在政治科學[19]、生物學[17]和心理學[32]等領域,這類研究使用主題模型來度量所關注的外部變數,是非監督學習中的難題,必須小心驗證。
這個問題通常可由電腦科學家與其它領域的學者合作使用主題模型來助力資料的探索、視覺化和抽象假設。除了遺傳學和神經學等科學應用系統,主題模型還可以應用於歷史、社會、語言、政治學、法律學和比較文學等其它以文字作為研究媒介的領域。通過與各學科的學者進行合作,電腦科學家們開始開發出新的跨學科的計算方法,來處理大量的文字,並從中提取潛在內涵。
5 總結
本文調研了處理大規模文件的一套統計模型——概率主題模型。近年來,隨著可擴充套件部件建模、後驗推斷的可擴充套件演算法和大資料集的日益增多等非監督機器學習的有力支援,主題模型有希望成為總結和理解人們日益增長的數字化資訊檔案的重要部件。
參考文獻
[1]Asuncion, M. Welling, P. Smyth, and Y. Teh. On smoothing and inference for topic models. In Uncertainty in Artificial Intelligence, 2009.
[2]E. Bart, M. Welling, and P. Perona. Unsupervised organization of image collections: Unsupervised organization of image collections: Taxonomies and beyond. Transactions on Pattern Recognition and Machine Intelligence, 2010.
[3] D. Blei, T. Griffths, and M. Jordan. The nested Chinese restaurant process and Bayesian nonparametric inference of topic hierarchies. Journal of the ACM, 57(2):1–30, 2010.
[4] D. Blei and M. Jordan. Modeling annotated data. In Proceedings of the 26th annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 127–134. ACM Press, 2003.
[5] D. Blei and J. Lafferty. Dynamic topic models. In International Conference on Machine Learning, pages 113–120, New York, NY, USA, 2006. ACM.
[6] D. Blei and J. Lafferty. A correlated topic model of Science. Annals of Applied Statistics, 1(1):17–35, 2007.
[7] D. Blei and J. McAuliffe. Supervised topic models. In Neural Information Processing Systems, 2007.
[8] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003.
[9] G. Box. Sampling and Bayes’ inference in scientific modeling and robustness. Journal of the Royal Statistical Society, Series A, 143(4):383–430, 1980.
[10] J. Boyd-Graber and D. Blei. Syntactic topic models. In Neural Information Processing Systems, 2009.
[11] W. Buntine. Variational extentions to EM and multinomial PCA. In European Conference on Machine Learning, 2002.
[12] W. Buntine and A. Jakulin. Discrete component analysis. In Subspace, Latent Structure and Feature Selection. Springer, 2006.
[13] J. Chang and D. Blei. Hierarchical relational models for document networks. Annals of Applied Statistics, 4(1), 2010.
[14] S. Deerwester, S. Dumais, T. Landauer, G. Furnas, and R. Harshman. Indexing by latent semantic analysis. Journal of the American Society of Information Science, 41(6):391–407, 1990.
[15] G. Doyle and C. Elkan. Accounting for burstiness in topic models. In International Conference on Machine Learning, pages 281–288. ACM, 2009.
[16] L. Fei-Fei and P. Perona. A Bayesian hierarchical model for learning natural scene categories. IEEE Computer Vision and Pattern Recognition, pages 524–531, 2005.
[17] S. Gerrish and D. Blei. A language-based approach to measuring scholarly impact. In International Conference on Machine Learning, 2010.
[18] T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 537–544, Cambridge, MA, 2005. MIT Press.
[19] J. Grimmer. A Bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases. Political Analysis, 18(1):1, 2010.
[20] M. Hoffman, D. Blei, and F. Bach. On-line learning for latent Dirichlet allocation. In Neural Information Processing Systems, 2010.
[21] T. Hofmann. Probabilistic latent semantic analysis. In Uncertainty in Artificial Intelli-gence (UAI), 1999.
[22] M. Jordan, Z. Ghahramani, T. Jaakkola, and L. Saul. Introduction to variational methods for graphical models. Machine Learning, 37:183–233, 1999.
[23] J. Li, C. Wang, Y. Lim, D. Blei, and L. Fei-Fei. Building and using a semantivisual image hierarchy. In Computer Vision and Pattern Recognition, 2010.
[24] W. Li and A. McCallum. Pachinko allocation: DAG-structured mixture models of topic correlations. In International Conference on Machine Learning, pages 577–584, 2006.
[25] D. Mimno and A. McCallum. Topic models conditioned on arbitrary features with Dirichlet-multinomial regression. In Uncertainty in Artificial Intelligence, 2008.
[26] D. Newman, C. Chemudugunta, and P. Smyth. Statistical entity-topic models. In Knowledge Discovery and Data Mining, 2006.
[27] J. Pritchard, M. Stephens, and P. Donnelly. Inference of population structure using multilocus genotype data. Genetics, 155:945–959, June 2000.
[28] J. Reisinger, A. Waters, B. Silverthorn, and R. Mooney. Spherical topic models. In International Conference on Machine Learning, 2010.
[29] M. Rosen-Zvi, T. Griffths, M. Steyvers, and P. Smith. The author-topic model for authors and documents. In Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence, pages 487–494. AUAI Press, 2004.
[30] D. Rubin. Bayesianly justifiable and relevant frequency calculations for the applied statistician. The Annals of Statistics, 12(4):1151–1172, 1984.
[31] J. Sivic, B. Russell, A. Zisserman, W. Freeman, and A. Efros. Unsupervised discovery of visual object class hierarchies. In Conference on Computer Vision and Pattern Recognition, 2008.
[32] R. Socher, S. Gershman, A. Perotte, P. Sederberg, D. Blei, and K. Norman. A Bayesian analysis of dynamics in free recall. In Neural Information Processing Systems, 2009.
[33] M. Steyvers and T. Griffths. Probabilistic topic models. In T. Landauer, D. McNamara, S. Dennis, and W. Kintsch, editors, Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum, 2006.
[34] Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101(476):1566–1581, 2006.
[35] M. Wainwright and M. Jordan. Graphical models, exponential families, and variational inference. Foundations and Trends in Machine Learning, 1(1–2):1–305, 2008.
[36] H. Wallach. Topic modeling: Beyond bag of words. In Proceedings of the 23rd International Conference on Machine Learning, 2006.
[37] C. Wang and D. Blei. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process. In Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, editors, Advances in Neural Information Processing Systems 22, pages 1982–1989.
2009.
[38] C. Wang, B. Thiesson, C. Meek, and D. Blei. Markov topic models. In Artificial Intelligence and Statistics, 2009.