【深度】“資訊瓶頸”理論揭示深度學習本質,Hinton說他要看1萬遍
本文講的是“資訊瓶頸”理論揭示深度學習本質,Hinton說他要看1萬遍,利用深度神經網路的機器已經學會了交談、開車,在玩視訊遊戲和下圍棋時擊敗了世界冠軍,還能做夢、畫畫,幫助進行科學發現,但同時它們也深深地讓其發明者困惑,誰也沒有料到所謂的“深度學習”演算法能做得這麼好。沒有基本的原則指引這些學習系統,除了一些模糊的來自人類大腦的設計靈感(而關於這一點,實際上也沒有人真正懂得多少)。
像大腦一樣,深度神經網路也有很多層神經元。當神經元被啟用時,它會發出訊號,連線上面一層的神經元。在深度學習的過程中,網路中的連線會根據需要被加強或減弱,從而讓網路更好地根據輸入(例如一張狗的照片的畫素)傳送訊號,訊號層層向上,經過所有相關的神經元,這些神經元都與“狗”這個概念的高層抽象有關。一個深度神經網路在“學習”過數以千計的狗的照片後,能像人一樣準確地識別出從未見過的照片中的狗。
從具體個例到通用概念的飛躍,讓深度神經網路擁有了如同人類在推理、創作時所展現出的“智慧”。專業人員想知道,是什麼賦予了神經網路泛化的能力,也想知道人類的大腦在多大程度上也在進行類似的活動。
近年來少有的乾貨演講,Hinton說他要看上10000遍才懂
上月,在柏林舉行的一場演講為這一疑問提供了一個可能的回答,這場演講的視訊在人工智慧研究人員間廣為分享。
演講中,希伯來大學的電腦科學家和神經學家Naftali Tishby,提出了一種解釋深度學習工作原理的新理論,並給出了證據支撐。Tishby認為,深度神經網路根據一種被稱為“資訊瓶頸”(information bottleneck)的過程在學習,他和兩位合作者最早在1999年對這一過程進行了純理論方面的描述。
資訊瓶頸理論認為,網路像把資訊從一個瓶頸中擠壓出去一般,去除掉那些含有無關細節的噪音輸入資料,只保留與通用概念(general concept)最相關的特徵。Tishby和他的學生Ravid Shwartz-Ziv的最新實驗,展示了深度學習過程中這種“擠壓”是如何發生的(至少在他們所研究的案例裡)。
Tishby的發現在AI研究圈激起了強烈的反向。Google Researc的Alex Alemi說:“我認為資訊瓶頸的想法可能在未來深度神經網路的研究中非常重要。”Alemi已經開發了新的近似方法,在大規模深度神經網路中應用資訊瓶頸分析。Alemi說,資訊瓶頸可能“不僅能夠用於理解為什麼神經網路有用,也是用於構建新目標和新網路架構的理論工具”。
另外一些研究人員則持懷疑態度,認為資訊瓶頸理論不能完全解釋深學習的成功。但是,紐約大學的粒子物理學家Kyle Cranmer——他使用機器學習來分析大型強子對撞機的粒子碰撞——表示,一種通用的學習原理(a general principle of learning),“聽上去有些道理”。
深度學習先驅Geoffrey Hinton在看完Tishby的柏林演講後發電子郵件給Tishby。“這簡直太有趣了,”Hinton寫道:“我還得聽上10,000次才能真正理解它,但如今聽一個演講,裡面有真正原創的想法,而且可能解決重大的問題,真是非常罕見了。”
Tishby認為,資訊瓶頸是學習的一個基本原則,無論是演算法也好,蒼蠅也罷,任何有意識的存在或突發行為的物理學計算,大家最期待的答案——“學習最重要的部分實際上是忘記”。
夏農錯了——利用資訊理論,我們能夠精確定義“相關性”
Tishby很早便開始考慮資訊瓶頸的問題,那時候其他研究人員也才剛剛開始醞釀深度神經網路,儘管當時無論是資訊瓶頸還是深度神經網路都還沒有得名。那是20世紀80年代,Tishby在思考人類是如何做語音識別的——語音識別是當時AI的一個重大挑戰。Tishby意識到,問題的關鍵是相關性:說出來的一個詞最相關的特徵是什麼,我們又該如何從重音、語調、模糊音等變數中將這個特徵計算出來?在通常情況下,當我們面對現實生活中汪洋大海般的資料時,哪些訊號是我們會保留下來的?
“相關資訊(relevant information)的概念在歷史上提到了許多次,但從來沒有被正確地形式化,”Tishby在上個月接受採訪時說:“多年來,人們認為資訊理論不是考慮相關性的正確方式,這個誤解可以一直追溯到夏農本人。”
克勞德·夏農,資訊理論的創始人,從某種程度上說,是夏農解放了人類對資訊的研究,讓資訊能夠以抽象的0、1形式和純粹的數學意義被研究。正如Tishby所說的那樣,夏農認為“資訊並非關乎語義”。但是,Tishby認為,這是不正確的。
Tishby意識到,利用資訊理論,“你能精確定義‘相關’(relevant)”。
希伯來大學電腦科學家和神經學家Naftali Tishby
假設X是一個複雜的資料集,就像一張狗的照片的畫素,而Y是這些資料代表的一個更為簡單的變數,比如單詞“狗”。你可以任意壓縮X而不丟失預測Y的能力,將X中所有與Y“相關”的資訊捕獲下來。在他們1999年的論文中,Tishby和他的共同作者,Fernando Pereira(現在在谷歌)和William Bialek(現在在普林斯頓大學),將這一過程轉換成一個數學優化問題並且提出了數學公式。這是一個沒有殺手級應用的核心基礎概念。
“我沿著這條路在各種不同的情景中思考了30年,”Tishby說:“我唯一的運氣就是深度神經網路變得如此重要。”
一篇論文的驚人發現:深度學習與物理重整化是完全相同的過程
深度神經網路背後的概念已經存在了幾十年,但它們在語音和影象識別任務中的表現在最近幾年才開始起飛,得益於改進了訓練方案和更強大的計算機處理器。Tishby在讀了物理學家David Schwab和Pankaj Mehta在2014年發表的一篇論文後,開始注意到深度學習與資訊瓶頸理論的關聯。
David Schwab和Pankaj Mehta兩人發現,Hinton發明的“深度信念網路”(DBN),在一種特定的情況下,酷似物理學中的重整化(renormalization),也就是以粗粒度的方式獲取物理系統的細節,從而計算其整體狀態。當Schwab和Mehta將深度信念網路應用於一個處於“臨界點”的磁力模型時(這時該系統是分形,在任意尺度都自相似),他們發現,網路會自動使用重整化般的過程來發現模型的狀態。
這一發現令人震驚,正如生物物理學家Ilya Nemenman當時評論所說的那樣,它表明了“在統計物理的背景下提取相關特徵和在深度學習的背景下提取相關特徵並不只是類似,而是完完全全的同一個。”
物理學家David Schwab和Pankaj Mehta在2014年的論文,證明在特定情況下深度學習等同於物理中的重整化技術,這讓Tishby注意到資訊瓶頸理論與深度學習之間的關聯
唯一的問題是,在一般情況下,現實世界並不是分形。Cranmer說:“我不會說[重整化步驟]就是深度學習在處理自然影象時效果這麼好的原因。”
但Tishby——他當時正在接受胰腺癌化療——意識到,無論是粗粒度過程還是深度學習,都可以被一個更廣泛通用的想法所涵蓋。“對科學和對我以前想法的思考是我的治療和康復的重要組成部分,”Tishby說。
Naftali Tishby的學生Noga Zaslavsky(左)和Ravid Shwartz-Ziv,他們幫助開發了深度學習資訊瓶頸理論。
資訊瓶頸:網路在抽取相關性時的理論邊界
2015年,Tishby和他的學生Noga Zaslavsky假設深度學習是一個資訊瓶頸過程,儘可能地壓縮噪聲資料,同時保留資料所代表的資訊。Tishby和Shwartz-Ziv對深度神經網路的新實驗揭示了瓶頸過程如何實際發生的。在一種情況下,研究人員使用小型神經網路,使用隨機梯度下降和BP,經過訓練後,能夠用1或0(也即“是狗”或“不是狗”)標記輸入資料,並給出其282個神經連線隨機初始強度,然後跟蹤了網路在接收3000個樣本輸入資料集後發生了什麼。
實驗中,Tishby和Shwartz-Ziv跟蹤了每層網路保留了多少輸入中的資訊和輸出標籤中的資訊。結果發現,資訊經過逐層傳遞,最終收斂到資訊瓶頸的理論邊界:也就是Tishby、Pereira和Bialek在他們1999年論文中推匯出的理論界限,代表系統在抽取相關資訊時能夠做到的最好的情況。在這個邊界上,網路在沒有犧牲準確預測標籤能力的情況下,儘可能地壓縮輸入。
Tishby和Shwartz-Ziv還提出了一個有趣的發現,即深度學習分為兩個階段:一個簡短的“擬合”階段,在此期間,網路學著去標註其訓練資料,以及一個更長時間的“壓縮”階段,在這個階段網路變得能夠泛化,也即標記新的測試資料。
作者在論文中指出,他們在實驗中首次觀察到了隨機梯度下降優化過程中兩個獨特的階段,經驗誤差最小化(ERM)和表示壓縮。上圖展示了SGD過程中資訊逐層傳遞收斂的情況。
在深度神經網路通過隨機梯度下降調整其連線權重的過程中,首先,網路儲存的關於輸入的資料會大致保持恆定或者稍微增加一點點,這時網路連線會進行調整,為輸入中的模式進行編碼,更好地擬合標籤。有一些專家也將這個階段與記憶進行了類比。
然後,學習切換到壓縮階段。網路開始扔掉一些關於輸入資料的資訊,只跟蹤最強的特徵——與輸出標籤最相關的那些關聯(correlation)。這是因為,在隨機梯度下降的每次迭代中,訓練資料中或多或少的意外相關性會告訴網路做不同的事情,在隨機遊走(random walk)中上下撥動神經連線的強度。這種隨機化與壓縮系統輸入資料的表示(representation)實際上是相同的。看這個例子,一些狗的照片的背景中可能有房子,而其他的照片沒有。在網路不停地訓練過程中,它可能會“忘記”一些照片中房屋和狗之間的相關性,因為其他照片抵消了這一點。Tishby和Shwartz-Ziv認為,正是對細節的遺忘使得系統能夠形成通用的概念。實際上,他們的實驗表明,深度神經網路在壓縮階段提高了泛化效能,在標記測試資料方面變得更好。
資訊瓶頸能否解釋所有的深度學習?
資訊瓶頸是否能解釋所有深度學習,除了壓縮以外是否還有其他的泛化途徑,這些還有待觀察。一些AI專家認為,Tishby的想法是近期出現的關於深度學習最重要的理論見解之一。不過,哈佛大學AI研究員和理論神經科學家Andrew Saxe指出,某些非常大的深度神經網路似乎不需要專門的壓縮階段來泛化。研究人員會用一種叫做“早期停止”(early stopping)的方式進行程式設計,減少訓練,從一開始就防止網路編碼過多的相關性。
Tishby認為,Saxe及其同事分析的網路模型與標準的深度神經網路架構有所不同,但是即使如此,資訊瓶頸的理論界限比其他方法更好地定義了這些網路的泛化效能。關於瓶頸是否適用於較大神經網路,Tishby和Shwartz-Ziv的最新實驗部分解決了這一問題。在最新的這項實驗中,Tishby他們訓練了更大的,擁有33萬連線的深度神經網路,識別美國國家標準和技術研究所資料庫(Modified National Institute of Standards and Technology database)中60,000張手寫數字的影象,這也是衡量深度學習演算法效能的一個知名基準。
Tishby和Shwartz-Ziv觀察到了同樣的現象,網路收斂到了資訊瓶頸的理論界限;他們也觀察到了深度學習那兩個截然不同的階段,並且與較小的網路相比,大規模網路在這兩個階段的轉換更加明顯。
“我現在完全相信這是一個普遍現象。”Tishby說。
人與機器:學習過程中最重要的,是遺忘
大腦如何從我們的感官中篩選訊號並將其提升到意識水平的謎團驅使了早期AI研究者對深度神經網路的興趣,他們希望逆向設計大腦的學習規則。時至今日,AI從業者在技術進步的狂熱中,已經在很大程度上放棄了這一點,迷醉於提高效能而不考慮生物學上的合理性。不過,在他們打造的思維機器能力不斷提升的過程中,許多研究人員仍然希望,這些探索能夠揭示關於學習和智慧的通用見解。
紐約大學心理學和資料科學助理教授Brenden Lake致力於研究人類和機器學習的異同,他認為Tishby的發現是“開啟神經網路黑匣子的重要一步”。但Lake強調說,大腦代表了一個更大、更黑的黑盒子。成年人的大腦擁有860億個神經元,之間更有數百萬億個連線,很可能採用了眾多策略來加強泛化,遠遠超越嬰兒期發生的基本的影象和聲音識別的學習過程,後者在很大程度上類似當前的深度學習。
Lake說,Tishby觀察到的擬合和壓縮階段,似乎並不能對應到兒童學習手寫字元的過程中。 人類孩子學習認字寫字,並不需要看數千個字元並在比較長的時間中壓縮他們思維中的表示(representation)。事實上,人類兒童可以從一個樣本中學習。Lake和他的同事構建模型表明,大腦可能會把新的字元解構成一系列的筆畫——以前就有的思維表示,從而將字母(letter)的概念加入到先前的知識大廈中,“而不是像標準的機器學習演算法一樣,將一個字母作為畫素圖案來學習,通過對映特徵學習概念”。Lake說,人類建立了一個簡單的因果模型——一個更短的泛化路徑。
這種想法可能為AI研究社群帶來啟發,進一步推動兩個領域彼此間的往來。Tishby認為,他的資訊瓶頸理論最終將被證明在兩門學科中都有用,可能在人類學習中採取一種比AI學習更泛化的表示。資訊瓶頸理論的一個直接應用,便是更好地瞭解人類神經網路和人工神經網路可以解決哪些問題。
“它給出了可以學習的問題的完整描述,”Tishby說:“這些都是我可以在輸入中消除噪音,而不會損害我分類能力的問題。例如自然視覺、語音識別。這些也正是我們的大腦可以應付的問題。”
同時,人類神經網路和人工神經網路都無法很好地解決另一些問題,那就是每個細節都很重要,因此無法去除資訊的問題。例如,大多數人不能快速地在心裡將兩個數字相乘。Tishby說:“我們有一大堆類似這樣的問題,改變一個變數都會引發全域性變化的邏輯問題。例如離散問題、加密問題。我不認為深度學習都幫助我破譯密碼。”
泛化——或者說遍歷資訊瓶頸——意味著捨棄一些細節。這對心算不好,但心算並不是大腦的主要任務。我們擅長在人群中尋找熟悉的面孔,在嘈雜、混亂的世界中對尋找顯著訊號的秩序。正如Naftali Tishby所說,學習中最重要的,實際上是遺忘。