1. 程式人生 > >概率機器學習和人工智慧(概率機器學習和人工intelligence_Nature2015)

概率機器學習和人工智慧(概率機器學習和人工intelligence_Nature2015)

本次調查論文是從Zoubin Ghahramani,這是發表在Nature在2015年關於概率機器學習和人工智慧。

雖然probalilistic機器學習的概念很簡單,

雖然概念上很簡單,全概率方法機器學習帶來了一些計算和建模的挑戰。計算,主要的挑戰是學習涉及邊緣化(求和出)的所有模型,除了利益(專欄1)變數的變數。這樣的高維和與積分通常是計算硬,在這個意義上,對於許多模型
存在用於精確地執行它們沒有已知的多項式時間演算法。幸運的是,許多的近似積分演算法已經被開發,包括馬爾可夫鏈蒙特卡洛(MCMC)方法,變近似值,期望傳播和順序蒙特Carlo23-26。值得一提的是,計算技術是其中貝葉斯機器學習從多機器學習的其餘不同一個區域:為貝葉斯研究者的主要計算問題是整合的,而對於許多社群的其餘部分的重點是優化模型引數。

但是,因為它似乎這種二分法並不像鮮明:許多基於梯度的優化方法,可以通過使用朗之萬和哈密頓蒙特卡洛methods27,28通過使用變成整合方法,而整合問題可以轉化為優化問題變approximations24。我重溫在後面的部分優化。

用於概率機器學習主造型的挑戰是,該模型應該具有足夠的靈活性以捕獲來實現感興趣的預測任務所需的資料的所有屬性。一種方法來應對這一挑戰是建立一個先驗分佈,涵蓋了可以在複雜適應資料模型一個開放式的宇宙。在與資料複雜性的增長的關鍵統計概念底層柔性模型是非引數變化。

概率模型和代表的不確定性

通過非引數變化的靈活性

概率程式設計

要做到這一點的一種方法是對所述計算機程式以限定用於從所述概率模型資料生成器,也就是一個模擬器(圖2)。

這個模擬器使得在這樣一種方式,重複執行從模擬器會從模型取樣不同的可能的資料集呼叫一個隨機數發生器。 
這裡寫圖片描述

概率規劃提供推廣圖形模型的一個優雅的方式使車型更豐富的表示,因為電腦程式可以允許的結構,如遞迴(函式呼叫本身)和 控制流語句(例如,“如果”這導致多個路徑語句一個程式可以遵循)。

事實上,對於許多是基於最近的概率程式語言的延伸圖靈完整的語言(包括幾乎所有常用語言的類),它可以代表任何可計算概率分佈作為概率程式[]。

全部潛力概率節目來自自動化推斷模型條件的觀測資料不可觀測變數的過程中(專欄1)。從概念上講,空調需要
計算該生成資料相匹配的節目的輸入狀態
觀測資料。而通常我們認為,從執行的程式


輸入輸出,調理涉及解決的逆問題
推斷投入(特別是隨機數呼叫)匹配
一定的程式輸出。這種調節是通過一個“通用的推理引擎”,通常是通過蒙特卡羅抽樣實施進行
了模擬程式是一致的可能的執行
與觀察到的資料。事實定義這種普遍推理
計算機程式演算法甚至可能是有些令人驚訝的,但它是從抽樣有關的某些關鍵思想的一般性
諸如拒絕取樣,順序蒙特卡洛methods25和
“近似貝葉斯computation'49。

舉個例子,假設你寫一個概率的程式,模擬了涉及不可測轉錄的基因的監管模式
因素某些基因的表達水平。你在每個不確定性
的模型的一部分將由概率分佈來表示
在模擬中使用。然後通用推理引擎可以調節
所測量的表達水平這個程式的輸出,並自動推斷不可測量轉錄因子和活性
其他不確定模型引數。概率的另一種應用
程式實現的計算機視覺系統作為一個逆
計算機圖形program50。

有幾個原因概率節目可能被證明是革命性機器智慧和科學模型。

-首先,通用推理引擎省卻了手工推導模型的推斷方法因為匯出並實施推理方法一般是在建模最限速和容易出錯的步驟,經常服用月,所以,它需要幾分鐘或幾秒鐘將大大加快機器學習系統的部署自動化此步驟。

-第二,概率規劃可能是科學的潛在變革,因為它允許快速原型和資料的不同型號的測試概率程式語言建立模型和推理過程之間一個非常明確的區分,鼓勵基於模型的思考 [] 。

有越來越多的概率程式語言。BUGS,斯坦,AutoBayes和Infer.NET只允許限制性級別的車型基於圖靈完備的語言系統相比,來表示。為了回報這個限制,推斷在這樣的語言可以比更一般的語言,如IBAL,BLOG,教堂,費加羅報,創業和英國國教快得多。近期工作的主要重點是在一般的語言快速推斷。

幾乎所有的辦法,概率程式設計是貝葉斯因為很難創造的不確定性自動推理等連貫的框架。

值得注意的例外是系統如Theano,它本身不是一個概率的程式語言,但使用符號微分加快和自動化的神經網路等概率模型[]的引數優化。

貝葉斯優化

這裡寫圖片描述

資料壓縮

考慮壓縮資料以便傳達或將它們在儘可能少的位元儘可能儲存以這樣的方式,原來資料能夠準確地從壓縮資料被恢復的問題。這樣的無損資料壓縮方法是在資訊科技無處不在,從計算機硬碟驅動器在網際網路上傳輸資料。資料壓縮和概率模型是同一枚硬幣的兩面,和貝葉斯機器學習方法正越來越多地推進國有OF-最先進的壓縮。壓縮和概率模型之間的連線建立在數學家夏農的開創性工作的源編碼定理77],其中指出,在以無損的方式來壓縮資料所需的位元數是由該概率分佈的熵界資料所有常用無損資料壓縮演算法(例如,gzip的)可以被看作是符號序列的概率模型

貝葉斯機器學習的鏈路是更好的概率模型中的一個學習,較高的壓縮率可以是 78 []。這些模型需要靈活和適應性,因為不同種類的序列有非常不同的統計模式(例如,莎士比亞的戲劇或計算機原始碼)。事實證明,一些世界上最好的壓縮演算法(例如,序列Memoizer79 []和動態引數PPM更新80 [])相當於序列的貝葉斯非引數模型,並改善壓縮正在通過更好地製成如何學習序列的統計結構的理解。
在壓縮未來進展將配備在概率學習機,包括如影象,圖表和其它結構化物件的非順序資料的特殊的壓縮方法的進步。

從資料可解釋模型的自動發現

其中一個機器學習的重大挑戰是完全自動化的學習和解釋資料統計模型的過程。這是自動統計員(目標http://www.automaticstatistician.com),一個系統,可以自動發現從資料可信的模型,並解釋了它在平原English81發現。這可能是有用的努力是對從資料提取知識依賴的幾乎任何領域。相反在許多機器學習文獻中,已集中在提取使用諸如核方法,隨機森林或深學習上的模式識別問題提高效能的改進所描述的方法中,自動統計員生成所組成可解釋模型部件,並具有約佔給出的資料模型結構不確定性的原則性方法這也給了合理的答案,不只是大的資料集,也為小的。貝葉斯方法提供交易掉了模型的複雜性和資料的複雜性優雅的方式,和概率模型成分和可解釋的,如前所述。

這裡寫圖片描述
這裡寫圖片描述
自動統計員的原型版本發生在時間序列資料,並自動生成5-15描述它已發現的模型(圖4)頁的報告這個系統是基於這樣的思想即概率積木可以通過一個語法被組合以模型[] 82 buildan開放式語言。在對比等式工作學習(參見例如參考文獻[] 83),該模型試圖捕捉的函式的一般特性(例如,平滑度,週期性或趨勢),而不是一個準確的公式處理不確定性是在自動統計師的核心; 它利用貝葉斯非引數變化的給它的靈活性來獲得國家的最先進的預測效能,並採用公制邊際可能性(專欄1)搜尋模型的空間。

重要的早期工作包括統計專家系統[] [] 84,85和機器人科學家,這與微生物學實驗平臺整合機器學習和科學發現在閉環自動化的新實驗[] 86.自動設計和執行-WEKA是最近的一個專案,它可以自動學習分類,使得大量使用已經描述[] 71.努力實現自動化的機器學習方法,以資料的應用程式最近勢頭貝葉斯優化技術,並可能最終導致人工智慧系統資料科學。

透視

資訊革命導致了越來越大的資料集合的可用性。什麼是不確定性的建模這樣的大資料的作用?經典的統計結果指出,在一定的規律性條件下,在大型資料集數量上限為貝葉斯引數模型引數的後驗分佈收斂到周圍的最大似然估計的單點這是否意味著不確定性貝葉斯概率模型是不必要的,如果你有大量的資料?

至少有兩個原因,這是不是這樣的[] 87.首先,正如我們所看到的,B ** ayesian非引數模型有本質上無限多的引數**,所以無論有多少資料的一個擁有他們的能力學習應該不會飽和而他們的預測應繼續改善

其次,許多大型資料集的小資料集的事實大集合例如,在諸如個性化醫療和推薦系統的地區,有可能是一個大的資料量,但仍然存在用於分別各患者或客戶端,資料的量相對較少。在層次結構和耦合這些模型在一起,使資訊可以從其他類似的人借用-要自定義每個有必要建立每個人的模型預測的人-其固有的不確定性。我們稱這種模型的個性化,以及採用分層貝葉斯方法如分級狄利克雷過程[] 36,以及貝葉斯多工學習[] [] 88,89其是天然實現。

概率方法機器學習和智力是有超越傳統的模式識別問題廣泛影響力的研究非常活躍的領域。正如我剛才所述,這些問題包括資料壓縮,優化,決策,科學模型的發現和解釋,以及個性化。問題之間的主要區別,其中一個概率方法是很重要的,並且可以用非概率機器學習來解決問題方法是不確定是否具有核心作用此外,大多數傳統的基於優化的機器學習方法有處理更堅持原則的不確定性概率的類似物。例如,貝葉斯神經網路代表了神經網路[] 44的引數不確定性,以及混合模型是聚類方法[]一個概率模擬78.雖然概率機器學習通常定義瞭如何解決問題的原則,在中央的挑戰欄位是找到如何在計算上高效的方式[] [] 90,91這樣做實際上。有許多方法來計算的硬推理問題的高效近似。現代推理方法已經使得有可能擴充套件到數百萬個數據點,使得概率方法與常規的方法[] [] [] [] 92-95計算競爭力。最終,情報依賴於理解和表演在不完全感覺到和不確定的世界。概率模型將繼續在更強大的機器學習和人工智慧系統的發展中發揮核心部分。

貝葉斯學習機
有概率論中兩個簡單的規則(概率論)的總和規則: 產品的規則: 總和規則規定的邊際
這裡寫圖片描述 

這裡寫圖片描述 
P點¯x  的 X 由求和(或連續變數整合)共同獲得過 ÿ該產品規則規定,合資P點¯x ÿ 可以分解為邊際的產物 P點¯x  和條件 Pÿ|點¯x 。 
貝葉斯法則是上述兩個規則的推論: 為了概率理論應用到機器學習,我們替換
這裡寫圖片描述 
X 通過 ð 以表示所觀察到的資料,並更換 ÿ 通過 θ來表示一個模型中的未知引數。我們還調節所有條款上,類概率模型,我們正在考慮。因此,我們得到 的地方
這裡寫圖片描述 
PРθ  是的引數的可能性 θ 模型 , Pθ | 是的先驗概率 θ 和 Pθ | ð  是的後 θ 給定的資料 ð
學習是有關引數的先驗知識或假設的轉型Pθ |通過資料 ð,進入有關引數後的知識, Pθ | ð 此後,現在將用於將來的資料事先。
一個學習模型可以用於預測或預測新看不見的測試資料,ðŧ Ë 小號Ť通過簡單地將之與產品規則獲得預測: 最後,不同的型號可通過在米級應用貝葉斯法則比較: 術語
這裡寫圖片描述 

這裡寫圖片描述 
PР| 是邊際可能性或模型的證據,並實現了被稱為貝葉斯奧卡姆剃刀簡單的模型的偏好。

45.Koller,D.,McAllester,D&普費弗A.有效貝葉斯推理的隨機
程式。在PROC。人工智慧740-747第14屆全國大會
(1997年)。
46.Goodman,ND和Stuhlmüller,A的設計與概率的實現
程式語言。可在http://dippl.org(2015年)。
47.Pfeffer,A.實際概率程式設計(曼寧,2015年)。
48.Freer,C.,羅伊,D&特南鮑姆,JB在圖靈的遺產(主編唐尼,R),
195-252(2014)。
49.Marjoram,P.,黃粉蟲,J.,Plagnol,V&Tavaré,S.馬爾可夫鏈蒙特卡羅
沒有可能性。PROC。國家科學院院報。科學。美國100,15324-15328(2003)。
50.Mansinghka,五,庫卡尼,TD,佩羅夫,YN和特南鮑姆,J.近似
使用生成概率圖形影象貝葉斯解釋
程式。在PROC。進展神經資訊處理系統26 
1520年至1528年(2013年)。
51.Bishop,CM模式基於機器學習。菲爾。跨。R. SOC。371,
,20120222(2013)
這篇文章是概率模型的一個非常明確的教程闡述。
52.Lunn,DJ,托馬斯,A.,最佳N.&Spiegelhalter於,D WinBUGS軟體-貝葉斯
模型框架:概念,結構和可擴充套件性。統計。COMPUT。10,
325-337(2000)。
此報告的早期概率程式設計框架廣泛應用於
統計
64.Bergstra,J。等。Theano:CPU和GPU的數學表示式編譯器。在PROC。
在科學大會9日的Python http://conference.scipy.org/proceedings/ 
scipy2010 /(2010年)。

77.Shannon,C和韋弗,通訊W.數學理論(大學,
伊利諾伊出版社,1949年)。
78.MacKay,DJC資訊理論,推理和學習演算法
(劍橋大學出版社,2003年)。
79.Wood ,F.,的Gasthaus,J.,Archambeau,C,詹姆斯L.&德,YW序列
memoizer。COMMUN。ACM 54,91-98(2011)。
本文推導基於一個國家的最先進的資料壓縮方案
貝葉斯非參模型。
80.Steinruecken,C.,Ghahramani,Z.麥凱,與DJC提高PPM 
動態引數更新。在PROC。資料壓縮會議(在
新聞)。

81.Lloyd,JR,Duvenaud,D.,格羅斯,R.,特南鮑姆,JB&Ghahramani,Z. 
自動構建和非引數的自然語言描述
迴歸模型。在PROC。第28屆AAAI會議人工智慧
預印在:http://arxiv.org/abs/1402.4304。(2014)
介紹了自動統計員,翻譯學概率
模型到有關資料的報告。
82.Grosse,RB,Salakhutdinov,R&特南鮑姆,JB開拓組合性
,探討模型結構的空間大。在PROC。會議的不確定性
人工智慧306-315(2012)。
83.Schmidt,M.&李碧菁,從實驗H.蒸餾自由形式的自然法則
的資料。,科學324,81-85(2009)
84.Wolstenholme,DE,奧布萊恩,CM&內爾德,JA一瞥:以知識為基礎
進行統計分析前端。Knowl。基礎。SYST。1,173-178(1988)。
85.Hand,在統計的戰略DJ模式。在人工智慧和統計
(ED大風,WA)(Addison-Wesley出版社朗文,1986)。
86.King,RD等。功能基因組學的假設生成和
試驗由機器人科學家。自然427,247-252(2004)

87.Welling,M。等。貝葉斯推理與大資料:從車間快照
ISBA公告21,https://bayesian.org/sites/default/files/fm/bulletins/1412
PDF(2014年)。
88.Bakker,B.&Heskes, T.任務叢集和門控貝葉斯多工
學習。J.馬赫。學習。水庫。4,83-99(2003)。
89.Houlsby,N.,埃爾南德斯,洛巴託,JM,Huszár,F&Ghahramani,Z.協作
高斯過程的偏好學習。在PROC。在神經進展
。資訊處理系統26 2096年至2104年(2012年)
90.Russell,SJ及Wefald,大腸桿菌做正確的事:在有限理性的研究(MIT 
出版社,1991年)。
91.Jordan,MI統計,計算和可擴充套件性。伯努利19日,1378至1390年
(2013年)。
92.Hoffman,M.,Blei,D.,佩斯利,J.&王C.隨機變推斷。
J. 馬赫。學習。水庫。14,1303年至1347年(2013年)。
93.Hensman,J.,副食,N.&勞倫斯,ND大資料高斯過程。在PROC。
會議的不確定性人工智慧244(UAI,2013年)。
94.Korattikara,A.,陳,Y.和威靈,米在緊縮土地MCMC:切割
大都市黑斯廷斯預算。在PROC。31日國際會議上機
學習181-189(2014)。
95.Paige,B.,木材,F.,杜塞,答:德,YW非同步隨時順序
蒙特卡洛。在PROC。在神經資訊處理系統的進步27 
3410-3418(2014)。

相關推薦

概率機器學習人工智慧概率機器學習人工intelligence_Nature2015

本次調查論文是從Zoubin Ghahramani,這是發表在Nature在2015年關於概率機器學習和人工智慧。 雖然probalilistic機器學習的概念很簡單, 雖然概念上很簡單,全概率方法機器學習帶來了一些計算和建模的挑戰。計算,主要的挑戰是學習涉及邊緣化

人工智慧領域常用的開源框架機器學習/深度學習/強化學習/知識圖譜/圖神經網路

【說在前面】本人部落格新手一枚,象牙塔的老白,職業場的小白。以下內容僅為個人見解,歡迎批評指正,不喜勿噴![認真看圖][認真看圖] 【補充說明】本文主要討論人工智慧領域中常用的支援 Python 程式語言的開源框架和庫,因此全面性肯定有限! 一、機器學習常用的開源框架和庫 1. Scikit-learn 作為

機器學習系統設計Building Machine Learning Systems with Python- Willi Richert Luis Pedro Coelho

切分 秘密 閾值 isa 占用 第二版 思考 並且 了解 機器學習系統設計(Building Machine Learning Systems with Python)- Willi Richert Luis Pedro Coelho 總述 本書是 2014 的,看完以後才

2018.09.24 bzoj1867: [Noi1999]釘子小球概率dp

傳送門 概率dp經典題。 如果當前位置(i,j)(i,j)(i,j)有釘子,那麼掉到(i+1,j),(i+1,j+1)(i+1,j),(i+1,j+1)(i+1,j),(i+1,j+1)的概率都是1/2

機器學習評價指標ACC,P,R,F1,AUC等

分類 TP:正例預測正確的個數 FP:負例預測錯誤的個數 TN:負例預測正確的個數 FN:正例預測錯誤的個數 準確率(accuracy) 精確率(precision) 描述的是在所有預測出來的正例中有多少是真的正例 準確率與精確率的區別: 在正負樣本不平衡的情況下,準確率這個評價指標

virtualbox 虛擬機器靜態IP設定用於Host OnlyNAT共存的方式

離你越近的地方,路途越遠;最簡單的音調,需要最艱苦的練習。——《泰戈爾詩選》 在專案開發中,使用VisualBox裝了多個虛擬機器,預設採用DHCP的方式,這種方式IP地址經常變換,很不方便,因此需要將各臺虛擬機器的IP地址設定為靜態IP地址。

[機器學習入門] 李巨集毅機器學習筆記-1Learning Map 課程導覽圖

在此就不介紹機器學習的概念了。 Learning Map(學習導圖) PDF VIDEO 先來看一張李大大的總圖↓ 鑑於看起來不是很直觀,我“照虎

[機器學習入門] 李巨集毅機器學習筆記-6 Classification: Logistic Regression;邏輯迴歸

[機器學習] 李巨集毅機器學習筆記-6 (Classification: Logistic Regression;Logistic迴歸) PDF VIDEO Three steps Step 1: Function Set

吳恩達機器學習——優化演算法高階演算法使用+多類別分類

其他演算法 Conjugate descent BFGS L-BFGS 特點: 不需要手動計算學習率 比梯度下降效率更高 缺點: 更加的複雜 如何排程高階演算法優化代價函式 Matlab實現方法 例項: 假設已知代價函式,我們通過代價函式求

Linux學習第一步虛擬機的鏡像文件的安裝

image 下載文件 型號 啟動 計算機 服務 .cn img blog 一、安裝虛擬機(本文以vmware workstation 12為例)   1.在網上所有虛擬機並下載。   2.找到下載文件安裝好   3.一直下一步   4.接下來的就是選擇安裝的目錄了,當

CentOS6.7虛擬機器配置靜態IPcurl: (6) Couldn’t resolve host

虛擬機器開啟虛擬網路配置,預設的有三種 橋接的意思是和你的主機並行,相當於在你的主機的局域網裡面添加了一臺 電腦,虛擬機器網段和主機網段必定一致; NAT的意思是以你的為閘道器,在主機下添加了一個區域網,此虛擬機器在此局 域網內,虛擬機器的網段和主機的網段定不一致; 此處我選擇的是NAT模

Selenium3+webdriver學習筆記5模擬常用鍵盤滑鼠事件

#!/usr/bin/env python# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.common.acti

Vector人工智慧情感機器人SDK釋出說明ROS2GO 2.0 + Vector 2.0

Vector人工智慧情感機器人SDK釋出和說明 Vector是Anki第二代人工智慧情感機器人(第一代為Cozmo),目前SDK開發者工具已經發布。 Vector一直致力於為大眾提供先進的,重要的,相關的機器人技術和人工智慧技術。我們這一部分是通過我們的多學科團隊花費無盡的日夜製作

Spring框架學習筆記——IoCInversion of Control,控制反轉AOPAspect Oriented Programming,面向切面程式設計

1、Spring IoC IoC是一個Bean容器,在Spring中,它認為一切Java資源都是Java Bean,容器的目標就是管理這些Bean和它們之間的關係。所以在Spring IoC裡面裝載的各種Bean,也可以理解為Java的各種資源,包括Java Bean的建立、事件、行為和Java

測試領域的學習發展我們都是溫水的青蛙

測試領域的學習和發展        ------其實我們處在測試領域中,就都如處在“溫水中的青蛙一樣” 最近很長一段時間都很忙,突然對自己最近的學習方法做個簡單的總結,以及個人對測試發展的整個

學習webpack4.X一,安裝配置熱更新

什麼是webpack WebPack可以看做是模組打包機:它做的事情是,分析你的專案結構,找到JavaScript模組以及其它的一些瀏覽器不能直接執行的拓展語言(Sass,TypeScript等),並將其轉換和打包為合適的格式供瀏覽器使用。在3.0出現後

springMVC學習筆記四資料型別轉換資料驗證

=============================資料型別轉換和資料驗證======================= 資料型別轉換 Spring 內建的 PropertyEditor 如下所示: 類名                         說明    

人工智慧是怎樣學習的?面向小白的科普文

前言 如今,物聯網、大資料、人工智慧、區塊鏈之類的新技術新概念炒的火熱,作為資訊行業的從業者,對各時髦技術至少要有科普級別的瞭解。本文聚集人工智慧,簡單講解機器學習的原理。 人工智慧是怎樣學習的? 作者:弈心逐夢 人工智慧通過學習,可以學會識

從技術小白到收穫BAT研發offer,分享我的學習經驗感悟贈送相關學習資料

去年秋季參加了校園招聘,有幸拿到了BAT、頭條、網易、滴滴、亞馬遜、華為等offer,經過研究生兩年的學習積累,終於達成了自己的目標,期間也經歷了很多,謹以此文,聊表感嘆,也會分享很多我的Java學習心得和求職經驗。 不管是找工作還是學技術,在精不在多,分享一下我的一些學習經驗,同時也會分享一些我覺得比較有價

Linux文件壓縮打包gzip、bip2、xz工具

linux常見壓縮格式Windows:.rar、.zip、.7zLinux :.zip、.gz、.bz2、.xz、.tar、.gz、.tar.bz2、.tar.xzgzip壓縮工具用來壓縮文件(常用)gzip 1.txt 壓縮 1.txt g