1. 程式人生 > >貝葉斯機器學習前沿進展

貝葉斯機器學習前沿進展

摘要:隨著大資料的快速發展,以概率統計為基礎的機器學習在近年來受到工業界和學術界的極大關注,並在視覺、語音、自然語言、生物等領域獲得很多重要的成功應用,其中貝葉斯方法在過去20多年也得到了快速發展,成為非常重要的一類機器學習方法。總結了貝葉斯方法在機器學習中的最新進展,具體內容包括貝葉斯機器學習的基礎理論與方法、非引數貝葉斯方法及常用的推理方法、正則化貝葉斯方法等。最後,還針對大規模貝葉斯學習問題進行了簡要的介紹和展望,對其發展趨勢作了總結和展望。

關鍵詞:貝葉斯機器學習;非引數方法;正則化方法;大資料學習;大資料貝葉斯學習

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

機器學習是人工智慧及模式識別領域的共同研究熱點,其理論和方法已被廣泛應用於解決工程應用和科學領域的複雜問題.2010年的圖靈獎獲得者為哈佛大學的LeslieValliant 授,其獲獎工作之一是建立了概率近似正確(probably approximate correct,PAC)學習理論;2011年的圖靈獎獲得者為加州大學洛杉磯分校的JudeaPearl教授,其主要貢獻為建立了以概率統計為理論基礎的人工智慧方法,其研究成果促進了機器學習的發展和繁榮。

機器學習的一個重要分支是貝葉斯機器學習,貝葉斯方法最早起源於英國數學家托馬斯·貝葉斯在1763年所證明的一個關於貝葉斯定理的一個特例[1-2].經過多位統計學家的共同努力,貝葉斯統計在20世紀50年代之後逐步建立起來,成為統計學中一個重要的組成部分[2-3]。貝葉斯定理因為其對於概率的主觀置信程度[4]的獨特理解而聞名。此後由於貝葉斯統計在後驗推理、引數估計、模型檢測、隱變數概率模型等諸多統計機器學習領域方面有廣泛而深遠的應用[5-6]。從1763年到現在已有250多年的歷史,這期間貝葉斯統計方法有了長足的進步[7]。在21世紀的今天,各種知識融會貫通,貝葉斯機器學習領域將有更廣闊的應用場景,將發揮更大的作用。

1. 貝葉斯學習基礎

本節將對貝葉斯統計方法進行簡要的介紹[5]:主要包括貝葉斯定理、貝葉斯模型的推理方法、貝葉斯統計學的一些經典概念。

1.1  貝葉斯定理

640?wx_fmt=png表示概率模型的引數,D表示給定的資料集.在給定模型的先驗分佈和似然函式640?wx_fmt=png的情況下,模型的後驗分佈可以由貝葉斯定理(也稱貝葉斯公式)獲得[2]:

640?wx_fmt=png   (1)

其中640?wx_fmt=png是模型的邊緣似然函式。

貝葉斯定理已經廣為人知,這裡介紹一種與貝葉斯公式等價但很少被人知道的表現形式,即基於優化的變分推理:

640?wx_fmt=png     (2)

其中P為歸一化的概率分佈空間。可以證明,式(2)中的變分優化的最優解等價於式(1)中的後驗推理的結果[8]。這種變分形式的貝葉斯定理具有兩方面的重要意義:1)它為 變分貝葉斯方法[9](variational Bayes)提供了理論基礎;2)提供了一個很好的框架 以便於引用後驗約束,豐富貝葉斯模型的靈活性[10]。這兩點在後面的章節中將具體闡述。

1.2 貝葉斯機器學習

貝葉斯方法在機器學習領域有諸多應用,從單變數的分類與迴歸到多變數的結構化輸出預測、從有監督學習到無監督及半監督學習等,貝葉斯方法幾乎用於任何一種學習任務.下面簡要介紹較為基礎的共性任務。

1)預測。給定訓練資料D,通過貝葉斯方法得到對未來資料x的預測[5]:

640?wx_fmt=png             (3)

需要指出的是,當模型給定時,資料是來自於獨立同分布的抽樣,所以640?wx_fmt=png通常簡化為640?wx_fmt=png

2)模型選擇。另一種很重要的貝葉斯方法的應用是模型選擇[11],它是統計和機器學習領域一個較為基礎的問題。用M表示一族模型(如線性模型),其中每個元素Θ是一個具體的模型。貝葉斯模型選擇通過比較不同族模型的似然函式來選取最優的:

640?wx_fmt=png   (4)

當沒有明顯先驗分佈的情況下,640?wx_fmt=png被認為是均勻分佈.通過式(4)的積分運算,貝葉斯模型選擇可以避免過擬合。

關於貝葉斯統計和貝葉斯學習更為詳細的內容,有些論文和教材有更進一步的說明]。

2 非引數貝葉斯方法

在經典的引數化模型中模型的引數個數是固定的,不會隨著資料的變化而變化.以無監督的聚類模型為例,如果能通過資料本身自動學習得到聚類中心的個數,比引數化模型(如K均值、高斯混合模型等)根據經驗設定一個引數要好得多;這也是非引數模型一個較為重要的優勢。相比較引數化貝葉斯方法,非引數貝葉斯方法(nonparametric Bayesian methods)因為其先驗分佈的非引數特性,具有描述資料能力強的優點[13],非引數貝葉斯方法因此在2000年以後受到較多關注[14]。例如具有未知維度的隱式混合模型[15]和隱式特徵模型[16]、描述連續函式的高斯過程[17]等。需要強調的是非引數化貝葉斯方法並不是指模型沒有引數,而是指模型可以具有無窮多個引數,並且引數的個數可以隨著資料的變化而自適應變化,這種特性對於解決大資料環境下的複雜應用問題尤其重要,因為大資料的特點之一是動態多變。下面將主要針對其中的一些較為重要的模型和推理方法進行簡要介紹。

2.1 狄利克雷過程

狄利克雷過程(Dirichletprocess, DP)是統計學家Ferguson於1973年提出的一個定義在概率測度Ω上的隨機過程[18],其引數有集中引數α>0和基底概率分佈

640?wx_fmt=png,通常記為G~640?wx_fmt=png。狄利克雷過程得到的概率分佈是離散型的,因此非常適合構建混合模型,例如,Antoniak於1974年通過給每個資料點增加一個生成概率,構造了一個狄利克雷過程混合模型(Dirichlet process mixture, DPM)[15],即            

640?wx_fmt=png (5)

其中,640?wx_fmt=png是生成每個資料點概率分佈的引數,比如高斯分佈的均值和協方差等,N為資料點的個數。

與狄利克雷過程等價的一個隨機過程是中國餐館過程(Chinese restaurant process, CRP)[19]。中國餐館過程是定義在實數域上的具有聚類特性的一類隨機過程,也因為其特有的較好展示特性而被經常使用。如圖1所示,在中國餐館過程中,假設有無限張餐桌和若干客人;其中第1名顧客選擇第1張餐桌,之後的顧客按照多項式分佈選擇餐桌,其中選擇每張餐桌的概率正比於該餐桌現在所坐的人數,同時以一定概率(正比於引數α)選擇一個沒人的餐桌.可以看到,當所有的客人選擇完畢餐桌,我們可以按照餐桌來對客人進行一個劃分.這裡每張餐桌代表一個聚類,每個客人代表一個數據點。

640?wx_fmt=png

可以證明所有的聚類點引數θ可以通過式(6)得到:

640?wx_fmt=png(6)

將狄利克雷混合模型中的G積分即可得到中國餐館過程,這也說明了兩個隨機過程的關係.這種簡潔的表述也很有利於馬爾可夫蒙特卡洛方法的取樣[20]。

另一種構造性的狄利克雷過程的表述是截棍過程(stickbreaking construction)[21].具體地說,將一根單位長度的棍,第k次切割都按照剩下的長度按照貝塔分佈的隨機變數,按比例切割:

640?wx_fmt=png(7)

即如圖2所示,對於一根長度為單位1的棍,第1次切割640?wx_fmt=png長度,以後每次切割都切割剩下部分640?wx_fmt=png的比例長度。狄利克雷過程的截棍表述是變分推理的基礎[22]。

640?wx_fmt=png

2.2 印度自助餐過程

與混合模型中每一個數據點只屬於一個聚類不同,在特徵模型中每一個數據點可以擁有多個特徵,這些特徵構成了資料生成的過程。這也符合實際情況中樣本資料點有多個屬性的實際需求。經典的特徵模型主要有因子分析(factor analysis)、主成分分析(principal component analysis)[24-25]等。在傳統的特徵模型中,特徵的數目是確定的,這給模型的效能帶來一定限制.印度自助餐過程(indian buffet process, IBP)是2005年提出的[26],因其非引數特效能從資料中學習得到模型中的特徵個數,使得模型能夠更好地解釋資料,已經在因子分析、社交網路連結預測等重要問題中應用[27-29]。

以二值(“0”或“1”)特徵為例,假設有N個數據點,所有資料點的特徵向量組成一個特徵矩陣,IBP的產生式過程可以形象地類比為N個顧客到一個無窮多個餐品的自助餐館進行選餐的過程,用“1”表示選擇,“0”表示不選擇,具體描述如圖3所示的方法進行:

1)第1名顧客選擇個640?wx_fmt=png餐品,其中640?wx_fmt=png640?wx_fmt=png

2)第2名及以後的顧客有兩種情況:1. 對於已經被選過的餐品,按照選擇該餐品的人數成正比的概率選擇該餐品;2. 選擇640?wx_fmt=png個未被選過的餐品,其中640?wx_fmt=png640?wx_fmt=png

與中國餐館過程類似,印度自助餐過程也有其對應的截棍過程[30].這裡不再贅述,僅列出其構造性表述如下:

640?wx_fmt=png(8)


但是與中國餐館過程的截棍過程不同的是棍的長度之和並不為1.印度自助餐過程也有其對應的取樣方法和變分優化求解方法[16,30-31]。

640?wx_fmt=png

2.3 應用及擴充套件

貝葉斯方法特別是最近流行的非引數貝葉斯方法已廣泛應用於機器學習的各個領域,並且收到了很好的效果[32]。這裡簡要提出幾點應用和擴充套件;對於大規模貝葉斯學習的相關應用將在第5節介紹,也可查閱相關文獻[13-14,33]。

經典的非引數化貝葉斯方法通常假設資料具有簡單的性質,如可交換性或者條件獨立等;但是,現實世界中的資料往往具有不同的結構及依賴關係。為了適應不同的需求,發展具有各種依賴特性的隨機過程得到了廣泛關注。例如,在對文字資料進行主題挖掘時,資料往往來自不同的領域或者型別,我們通常希望所學習的主題具有某種層次結構,為此,層次狄雷克利過程(hierarchical Dirichlet process, HDP)[34]被提出,可以自動學習多層的主題表示,並且自動確定主題的個數.另外,具有多個層次的IBP過程也被提出[35],並用於學習深層置信網路的結構,包括神經元的層數、每層神經元的個數、層間神經元的連線結構等。其他的例子還包括具有馬爾可夫動態依賴關係的無限隱馬爾可夫模型[36]、具有空間依賴關係的狄雷克利過程[37]等。

另外,對於有監督學習問題,非引數貝葉斯模型最近也受到了廣泛的關注.例如,社交網路資料建模和預測是一個重要的問題,近期提出的基於IBP的非引數化貝葉斯模型[27,29]可以自動學習隱含特徵,並且確定特徵的個數,取得很好的預測效能。使用DP混合模型同時作聚類和分類任務也取得了很好的結果[38]。

3 貝葉斯模型的推理方法

貝葉斯模型的推理方法是貝葉斯學習中重要的一環,推理方法的好壞直接影響模型的效能。具體地說,貝葉斯模型的一個關鍵性的問題是後驗分佈通常是不可解的,使得式(3)和式(4)中的貝葉斯積分也是不可解的。這時,就需要一些有效的推理方法。一般而言,主要有兩類方法:變分推理方法(varia-tional inference)和蒙特卡洛方法(Monte Carlo methods)。這兩類方法都在貝葉斯學習領域有廣泛的應用,下面分別介紹這兩類方法。

3.1 變分推理方法

變分法是一種應用較廣的近似優化方法[39-40],在物理、統計學、金融分析、控制科學領域解決了很多問題。在機器學習領域,變分方法也有較多應用:通過變分分析,可以將非優化問題轉化成優化問題求解,也可以通過近似方法對一些較難的問題進行變分求解[41]。

在變分貝葉斯方法中,給定資料集D和待求解的後驗分佈640?wx_fmt=png,變分方法界定其後驗分佈的近似分佈為640?wx_fmt=png。運用傑森不等式,可以得到對數似然的一個下界(evidence lower bound,ELOB)。

640?wx_fmt=png  (9)

通過最大化該對數似然下界:

640?wx_fmt=png  (10)

或者最小化640?wx_fmt=png640?wx_fmt=png之間的KL散度,就可以完成優化求解的過程。因此,變分推理的基本思想是將原問題轉化成求解近似分佈的優化問題,結合有效的優化演算法來完成貝葉斯推理的任務[22,42-43]。

很多時候,模型Θ中往往有一些引數θ和隱變數h。這時變分問題可以通過變分期望最大化方法求解(variational EM algorithm):通過引入平均場假設(mean-fieldassumption)640?wx_fmt=png,可以迭代進行EM演算法[44]。

3.2 蒙特卡洛方法

蒙特卡洛方法是一類通過利用模擬隨機數對未知的概率分佈進行估計;當未知分佈很難直接估計或者搜尋空間太大、計算太複雜時,蒙特卡洛方法就成為重要的推理和計算方法[45-46]。例如,貝葉斯機器學習通常需要計算某個函式在某種分佈(先驗或者後驗)下的期望,而這種計算通常是沒有解析解的。假設640?wx_fmt=png是一個概率分佈,目標是計算如下積分:

640?wx_fmt=png  (11)

蒙特卡洛方法的基本思想是使用如下估計來近似I:

640?wx_fmt=png  (12)

其中640?wx_fmt=png是從P中得到的取樣。根據大數定律,在取樣數目足夠多時,蒙特卡洛方法可以很好地估計真實期望。

上面描述的是蒙特卡洛方法的基本原理,但實際過程中p的取樣並不是很容易就可以得到,往往採用其他的方法進行,常用的方法有重要性取樣(importance sampling)、拒絕取樣(rejection sampling)、馬爾可夫蒙特卡洛方法(Markov Chain Monte Carlo, MCMC)等。前兩者在分佈相對簡單時比較有效,但是對於較高維空間的複雜分佈效果往往不好,面臨著維數災難的問題。下面重點介紹MCMC方法,它在高維空間中也比較有效。

MCMC方法的基本思想是構造一個隨機的馬爾可夫鏈,使得其收斂到指定的概率分佈,從而達到推理的目的[47]。一種較為常用的MCMC方法是Metropolis-Hastings演算法[48](MH演算法)。在MH演算法中,通過構造一個從640?wx_fmt=png狀態到640?wx_fmt=png狀態的轉移規則:

1)根據640?wx_fmt=png從舊的狀態取樣中得到一個新的狀態取樣;

2)計算接受概率:

640?wx_fmt=png(13)

3)從0-1均勻分佈中取樣得到640?wx_fmt=png[0, 1]。若640?wx_fmt=png,則接受取樣640?wx_fmt=png,否則拒絕取樣0

另一種常用的MCMC方法是吉布斯取樣(Gibbs sampling)[46,49],它是MH演算法的一種特例,吉布斯取樣已廣泛應用在貝葉斯分析的推理中。吉布斯採用是對多變數分佈中每一個變數在其他已經觀察得到取樣的變數已知的條件下依次取樣,更新現有的引數,最後收斂得到目標後驗分佈。假設需要取樣的多元分佈為,即每次選出一個維度j:1≤j≤d,其中d是多元分佈640?wx_fmt=png的維度;隨後從條件概率分佈640?wx_fmt=png640?wx_fmt=png進行取樣。

有很多貝葉斯模型都採用了MCMC的方法進行推理,取得了很好的效果[20,30,50]。除此之外,還有一類非隨機遊走的MCMC方法———LangevinMCMC[51]和Hybrid MonteCarlo[52]。這一類方法往往有更快的收斂速度,但是表述的複雜程度較大,因此受歡迎程度不及吉布斯取樣,但是,最近在大資料環境下發展的基於隨機梯度的取樣方法非常有效,後文將會簡要介紹。

4 正則化貝葉斯理論及應用舉例

在第2節中提到了貝葉斯方法的兩種等價表現方式,一種是後驗推理的方式,另一種是基於變分分析的優化方法,其中第2種方式在近年有了較大發展.基於這種等價關係,我們近年來提出了正則化貝葉斯(regularized Bayesian inference, RegBayes)理論[10]:如圖4所示,在經典貝葉斯推理過程中,後驗分佈只能從兩個維度來獲得,即先驗分佈和似然函式;而在正則化貝葉斯推理中,後驗推理轉化成一種變分優化的方式,通過引入後驗正則化,為貝葉斯推理提供了第3維自由度,極大地豐富了貝葉斯模型的靈活性。在RegBayes理論的指導下,我們系統研究了基於最大間隔準則的判別式貝葉斯學習以及結合領域知識的貝葉斯學習等,取得了一系列的成果[]。

640?wx_fmt=png

正則化貝葉斯推理的基本框架可以簡述如下,在式(2)的基礎上,引入後驗正則化項,考慮領域知識或者期望的模型屬性:

640?wx_fmt=png(14)

其中是一個凸函式640?wx_fmt=png。在運用RegBayes解決具體問題時需要回答下面3個問題:

問題1.後驗正則化從何而來.後驗正則化是一個通用的概念,可以涵蓋任何期望影響後驗分佈的資訊。比如,在有監督學習任務(如影象/文字分類)中,我們期望後驗分佈能夠準確地預測,這種情況下我們可以將分類錯誤率(或者某種上界)作為優化目標,通過後驗正則化引用到學習過程中,典型的例子包括無限支援向量機[38](infinite SVM)、無限隱式支援向量機[56](infinitelatent SVM)、最大間隔話題模型[57](maximummargin supervised topic model, MedLDA)等,這些方法均採用了最大間隔原理,在貝葉斯學習過程中直接最小化分類錯誤率的上界(即鉸鏈損失函式),在測試資料上取得顯著的效能提升。

另外,在一些學習任務中,一些領域知識(如專家知識或者通過眾包方式收集到的大眾知識)可以提供資料之外的一些資訊,對提高模型效能有很大幫助。在這種情況下,可以將領域知識作為後驗約束,與資料一起加入模型中,實現高效貝葉斯學習。需要指出的是大眾知識往往存在很大的噪音,如何採取有效的策略過濾噪音實現有效學習是問題的關鍵。在這方面,我們提出了將使用邏輯表達的領域知識魯棒地引入貝葉斯主題模型,實現了更優秀的模型效果[58]。

問題2.先驗分佈、似然函式以及後驗正則化之間有何關係。先驗分佈是與資料無關的,基於先驗知識的概率分佈不能反映資料的統計特性;似然函式則是基於資料產生的概率分佈,反映了資料的基本性質,通常定義為具有良好解析形式的歸一化的概率分佈。而後驗正則化項同樣是利用資料的特性來定義的,但是,它具有更廣泛靈活的方式,不受歸一化的約束,因此,可以更方便準確地刻畫問題的屬性或者領域知識,如問題1中所舉的最大間隔學習以及領域知識與貝葉斯統計相結合等示例。甚至可以證明,一些後驗分佈不可以通過貝葉斯定理得到,但是可以通過後驗正則化得到[10]。因此,RegBayes是比經典貝葉斯方法更靈活更強大的方法。

問題3.如何求解優化問題。雖然正則化貝葉斯具有極強的靈活性,其學習演算法仍然可以使用變分方法或者蒙特卡洛方法進行求解,具體的求解方法請閱讀相關論文。下面介紹的大資料貝葉斯學習理論和演算法均可以應用到快速求解正則化貝葉斯模型[55],這也是目前的研究熱點。

5 大資料貝葉斯學習

隨著網際網路技術的發展,研究面向大資料的機器學習理論、演算法及應用成為當前研究的熱點[[59]59],得到學術界和工業界的廣泛關注。貝葉斯模型有較好的資料適應性和可擴充套件性,在很多經典問題上都取得了很好的效果,但是,傳統貝葉斯模型的一個較大的問題在於其推理方法通常較慢,特別是在大資料背景下很難適應新的模型的要求。因此,如何進行大規模貝葉斯學習方法是學術界的重要挑戰之一。可喜的是近期在大資料貝葉斯學習(big Bayesian learning, BigBayes)方面取得了顯著的進展。下面簡單介紹在隨機演算法及分散式演算法方面的進展,並以我們的部分研究成果作為示例。表1所示為對目前的若干前沿進展簡要總結:

640?wx_fmt=png

5.1 隨機梯度及線上學習方法

當資料量較大時精確的演算法往往耗時較長,不能滿足需要。一類常用的解決方案是採用隨機近似演算法[60-61]。這類演算法通過對大規模資料集的多次隨機取樣(random subsampling),可以在較快的時間內收斂到較好的結果。這種思想已經在變分推理和蒙特卡洛演算法中廣泛採用,簡要介紹如下。

在變分推理方面,如前所述,其核心是求解優化問題,因此,基於多次隨機降取樣的隨機梯度下降演算法成為很自然的選擇。具體地說,隨機梯度下降演算法(stochastic gradient descent, SGD)[62]每次隨機選取一個數據子集,並用該子集上計算的梯度估計整個資料集上的梯度,對要求解的引數進行更新:

640?wx_fmt=png(15)

其中Q是待優化的目標函式,是資料的第t個子集。值得注意的是,歐氏空間中的梯度並非最優的求解變分分佈的方向;對於概率分佈的尋優,自然梯度往往取得更快的收斂速度[63]。近期的主要進展包括隨機變分貝葉斯方法[61]以及多種利用模型特性的快速改進演算法[64][64]。

在蒙特卡洛演算法方面,可以將隨機梯度的方法用於改進對應的基於梯度的取樣演算法,如隨機梯度朗之萬動力學取樣方法(stochastic gradient langevin dynamics, SGLD)[65]、隨機梯度哈密爾頓蒙特卡洛(stochasticHamiltonian Monte Carlo, SHM)[66][66]。這些演算法加快了蒙特卡洛取樣的速度、有較好的效果。


例1.為了適應動態流資料的處理需求,基於線上學習的大規模貝葉斯推理演算法也成為近期的研究熱點,主要工作包括流資料變分貝葉斯[67]等。我們近期提出了線上貝葉斯最大間隔學習(online Bayesian passive-aggressive learning, Online BayesPA )框架,顯著提高了正則化貝葉斯的學習效率,並且給出了線上學習後悔值的理論界[55]。在100多萬的維基百科頁面資料上的部分實驗結果如圖5所示,可以看出,基於線上學習的演算法比批處理演算法快100倍左右,並且不損失分類的準確率。

640?wx_fmt=png

5.2 分散式推理演算法

另一種適用於大規模貝葉斯學習問題的演算法是基於分散式計算的[68],即部署在分散式系統上的貝葉斯推理演算法。這類演算法需要仔細考慮演算法的實際應用場景,綜合考量演算法計算和通訊的開銷,設計適合於不同分散式系統的推理演算法。

一些演算法中的部分引數之間不需要交換資訊,只需要計算得到最後結果彙總即可;對於這類問題,只需要對原演算法進行適當優化,部署在系統上即可有較好的效果。但是,還有更多演算法本身並不適合並行化處理,這就意味著演算法本身需要修改,使得其可以進行分散式計算,這也是大規模貝葉斯學習的研究熱點之一,並且已經取得很多重要進展,包括分散式變分推理[67]和分散式蒙特卡洛方法[69]等。

例2.以主題模型為例,經典的模型使用共軛狄利克雷先驗,可以學習大規模的主題結構[70],但是,不能學習主題之間的關聯關係。為此,使用非共軛 Logistic-Normal先驗的關聯主題模型(correlated topic model, CTM)[71]被提出。CTM的缺點是其推理演算法比較困難,已有的演算法只能處理幾十個主題的圖結構學習。為此,筆者課題組近期提出了CTM的分散式推理演算法[72],可以處理大規模的資料集,學習上千個主題之間的圖結構。該演算法的部分結果如表2所示,其中D表示資料集大小,K表示主題個數。由表2可以看出分散式推理演算法(即gCTM)極大地提高了模型可以承載的資料量(如600萬的維基百科網頁)和更多的主題個數(如1000)。這個專案的程式碼及更多資訊已經公佈,讀者可以自行瀏覽[73]。

在上述大規模主題圖結構的學習基礎上,進一步開發了“主題全景圖”(TopicPanorama)視覺化介面,它可以將多個主題圖結構進行融合,並且以使用者友好的方式展現在同一個介面上,如圖6所示,其中每個節點代表一個主題,節點之間的邊代表相關聯關係,邊的長度代表關聯強度,所用資料集為微軟、谷歌、雅虎等3個IT公司相關的新聞網頁。該視覺化工具具有多種互動功能,使用者可以使用放大或縮小功能對主題圖的區域性進行仔細檢視,同時,也可以修改圖的結構並反饋給後臺演算法進行線上調整。多位領域專家一致同意該工具可以方便分析社交媒體資料。更多具體描述參見文獻[74]。640?wx_fmt=png

640?wx_fmt=png

5.3 基於硬體的加速

隨著硬體的發展,使用圖形處理器(graphics processing units, GPU)、現場可程式設計邏輯閘陣列(field-programmablegate array, FPGA)等硬體資源對貝葉斯學習方法進行加速也是最近興起的研究熱點。例如,有研究者利用GPU技術對話題模型的變分方法[75]和MCMC演算法[76-77]進行加速,還有一些研究者利用FPGA對蒙特卡洛演算法[78]進行加速。利用強大的硬體裝置,搭配適當的模型和演算法架構,可以起到事半功倍的效果。

6 總結與展望

貝葉斯統計方法及其在機器學習領域的應用是貝葉斯學習的重要研究內容。因為貝葉斯理論的適應性和可擴充套件性使得貝葉斯學習得到廣泛的應用.非引數貝葉斯方法和正則化貝葉斯方法極大地發展了貝葉斯理論,使其擁有更加強大的生命力。

近年來,大資料貝葉斯學習成為人們關注的焦點,如何加強貝葉斯學習的靈活性以及如何加快貝葉斯學習的推理過程,使其更加適應大資料時代的挑戰成為人們考慮的問題。在這一時期許多新的方法和理論將被提出,貝葉斯學習也與其他許多方面的知識相結合,如平行計算、資料科學等,產生很多新的成果。可以預想,貝葉斯學習肯定會有更多更新更好的成果,也會在將來有更廣泛的應用。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

Zhu Jun. born in 1983. Associateprofessor and PhD supervisor in Tsinghua University. His current researchinterests include machine learning, Bayesian statistics, and large-scalelearning algorithms and applications.

640?wx_fmt=png

Hu Wenbo, born in 1992.PhDcandidate in Tsinghua University. His current research interests includemachine learning and scalable Bayesian learningmethods([email protected]).

本文摘自《計算機研究與發展》2015.52(1)

640?wx_fmt=png

架構文摘

ID:ArchDigest

網際網路應用架構丨架構技術丨大型網站丨大資料丨機器學習

640?wx_fmt=jpeg

更多精彩文章,請點選下方:閱讀原文