何暉光:“深度學習類腦嗎?”--- 基於視覺資訊編解碼的深度學習類腦機制研究 | VALSE2017之十四
點選上方“深度學習大講堂”可訂閱哦!
編者按:深度學習中最經典的卷積神經網路,其命名的初衷,即是向人腦中的神經網路致敬。而深度學習的提出,在很大程度上,也是受到了大腦的啟發。然而,深度學習是否類腦?目前並沒有統一的認識。對深度學習的類腦機制研究將有助於加深理解深度學習。
本文中,來自中科院自動化所的何暉光研究員,將從視覺資訊編解碼的角度出發,建立人類視覺系統與外界視覺刺激資訊之間的對映模型,探索大腦視覺資訊處理的過程和機理,希望利用機器智慧實現對人類視覺感知功能的模擬,從而提升計算機處理視覺資訊的能力。大講堂特別在文末提供文中提及所有文章以及模型程式碼的下載連結。
深度學習是否類腦,目前並沒有統一的認識。我將從視覺資訊編解碼的角度來介紹我們關於深度學習和類腦的思考。
我們通過fMRI訊號,建立人腦響應與外界視覺刺激資訊之間的對映模型,探索大腦視覺資訊處理的過程和機理。與此同時,我們還將研究深度學習所得到的視覺特徵與大腦視覺資訊處理的關係,理解各層特徵在大腦皮層的神經表達,並利用深度學習建立視覺資訊的神經編解碼模型。最後介紹我們利用多檢視貝葉斯深度學習從fMRI訊號重構影象的工作。我的彙報包括以下幾個方面的內容:
研究背景
國內外研究現狀
研究內容和研究結果
總結及展望
研究背景
眾所周知,視覺是至關重要的,人類從外界接收的各種資訊中,約80%是通過視覺系統獲得的。因此,視覺研究一直是熱點問題,近年來有關視覺的報道如雨後春筍般湧現。
計算機視覺 VS 人類視覺
近年來,計算機視覺的研究取得了極大的進展,在目標檢測、分類、識別等各領域已有很多優秀的工作,但是它依然難以處理複雜背景下的物體識別。相對而言,人類視覺具有高效、魯棒、抗噪等特點。因此,一個自然而然的想法就是:
——如何將人類視覺特性引入計算機視覺模型呢?
——我們考慮從視覺資訊編解碼的角度來嘗試回答這個問題。
基於fMRI技術研究人腦視覺編解碼機制
最近fMRI(功能性磁共振成像)技術發展迅速,它可以無損地檢測大腦活動。我簡單介紹一下fMRI的成像原理:
人類大腦接受外界刺激會引起神經元的興奮,導致血液內含氧血紅蛋白的增多,通過MRI(核磁共振成像)可以檢測出這樣的訊號,從而檢測出興奮的區域,比如說話時語言中樞會比較興奮,當接受視覺刺激時,視覺中樞會比較興奮。
這是fMRI的一個實驗步驟:人躺在共振成像的裝置中,通過投影裝置給他一些視覺刺激和任務,可以得到分別在靜息和受刺激時的大腦反應,通過二者狀態的差值能夠檢測出受刺激時相關的大腦反應區。
編碼和解碼是什麼樣的過程呢?
比如針對一個刺激S,大腦會有一個響應R,建立從刺激S到響應R的對映關係過程就是一個編碼過程,當提供一個新的刺激時,就能夠據此預測大腦的響應;反而言之,如果已知大腦響應,去推測受到什麼樣的刺激,這就是一個解碼過程。解碼過程可以看作是編碼過程的一個逆過程。
如果建立一個好的編碼模型,可以通過模型求逆得到解碼模型,當模型不能夠求逆時,可以通過最大後驗估計或者貝葉斯估計來推出解碼模型。因此,編碼是一個非常重要的步驟。
國內外研究現狀
2001年Haxby在Science上發表了一部分工作,通過fMRI實驗,他將顳葉皮層的啟用模式作為特徵,對客體進行分類識別,在一些物體上達到了90%以上的分類準確率。後來有人在腦電上進行了類似的分類工作。
在客體識別上,UC伯克利的研究組利用Gabor金字塔建立了從影象到大腦訊號的模擬V1感受野的模型。當接收到一個新的fMRI訊號後,將訊號和感受野模型的預測結果進行匹配,在120多張圖片中可以達到90%以上的正確率。
Miyawaki發表在Neuron上的一個工作,進一步做了視覺資訊重建,在客體分類和客體識別的基礎上,重建出人類所看到的影象細節。
更進一步,Nishimoto組通過能量編碼模型,可以大致重建出視訊中物體的輪廓資訊。
這是Gallant(神經科學家)在CVPR15上介紹的一個語義重建工作,Gallant是神經科學家,但是卻受邀在CVPR上做KeyNote,這也反映了計算機視覺有必要與神經科學加以結合。受試者觀看一個視訊,同時採集他的fMRI訊號。通過分析他的fMRI訊號,就可以預測出人所看到的視訊中包含的重要語義資訊。
他們(Gallant組)發表在2016年Nature上的工作提出了幾個重要觀點:語義資訊是在整個大腦皮層上都有響應的,且他們在不同個體上具有某種共性。
目前視覺資訊編解碼研究中的侷限:
以上這些之前的研究取得了一些成績,但是存在一定的侷限性:編碼較簡單,如Gallant採用Gabor金字塔建立感受野模型,Mayawaki採用不同尺度的小方格來逼近視覺感受野。這隻適合於初級視覺皮層,他們對高階視覺皮層,以及視覺皮層之間相關性資訊的研究還不夠。由此需要層次化的建模。
由於深度學習是一個層次化的模型,自然想到應用它來解決此問題,但是深度學習內在理論的研究還不完善,它常被當作黑盒子來使用。
研究發現,深度學習的層級特徵和大腦皮層之間有一定的對應關係。比如,低層的Gabor濾波器類似於V1區識別影象中畫素級別的區域性特徵,例如邊緣資訊;高階區域將低階特徵組合成全域性特徵,形成複雜模式,甚至語義級別的資訊。而對於中間層的對映關係,還有待進一步研究。
我們拿到了一個國家自然科學基金重點支援專案“視聽覺資訊的認知計算“,利用深度神經網路來進行視覺資訊編碼和解碼,由此探索深度學習的類腦生物基礎,並在一定程度上解釋大腦視覺計算的機制。通過對視覺資訊的編解碼,引導深度神經網路建模。
研究內容和結果
我們的工作從幾個方面展開:一方面,利用深度學習對影象進行分解,觀察分解的特徵在大腦皮層上的表達;另一方面,通過深度學習,進行視覺資訊的神經編解碼,理解人類視覺資訊加工的特徵空間以及在大腦中的組織規律,然後利用大腦的編解碼來引導深度神經網路建模。
我們可以進行特徵對比(比如將低層特徵和fMRI特徵進行對比)和特徵選擇,將其用在影象分類、檢索和重建上。
特徵表達
我們利用CNN對影象進行分解,得到不同層次的特徵,然後觀察不同層次特徵和大腦體素訊號的對應關係,由此可以建立體素的感受野模型,相當於特徵在大腦皮層上的一個表達。
自編碼模型用於神經訊號編解碼
很自然地想到CNN的自編碼模型,輸入影象通過CNN編碼,可以在中間層得到影象的特徵,然後通過反捲積重建出影象。因此,如果能夠建立影象特徵和大腦皮層響應關係,通過皮層響應就能重建出影象。這裡涉及到兩種方法:第一種,先做自動編碼,再把中間層和大腦訊號做一個迴歸。第二種,將自編碼和迴歸同時進行。
通過建立上述模型,從影象到BOLD訊號是一個編碼的過程,從BOLD訊號重建影象是一個解碼的過程,這是在CNN框架下的一個工作。
多檢視生成式自編碼模型
考慮到“多檢視”這個因素,也就是說,我們得到的視覺直觀影象和大腦對其的響應具有一定的差異性,這兩個view之間也具有一定的關係,我們需找到這兩個view之間共同的表徵,以便對其重建。
通過該通道,從影象到BOLD響應是一個編碼過程。
通過該通道,從BOLD訊號到影象的預測,就是一個解碼的過程。
在這個框架下,我們給出了概率圖模型和待優化的目標函式。
多檢視生成式模型
這是我們的實驗結果。第一排是原始的刺激,中間是其他人的一些方法和結果,最後一排是我們的結果。我們在三個資料庫上進行了實驗,結果表明,我們對數字、符號、字母的重建效果遠高於其他方法。
我們還進行了一些定量分析,分別比較了相關性、重建誤差、結構相似性,還對重建後的影象進行了分類,實驗表明我們的演算法對數字的分類正確率達100%,對字母的分類準確率也遠高於對比方法。
卷積網路與人腦視覺皮層的功能對應
前面講的是重建方面的工作。我們還嘗試探索了深度網路與人腦視覺皮層的功能對應性。研究不同腦區和卷積層的對應關係。比如我們進行了量化的研究,上圖右邊是深度神經網路的第一個卷積層的感受野,由此推算出人腦視網膜的拓撲對映結構,左邊是體素分佈。
我們還探索了視覺皮層層級之間的聯絡。研究表明V1,V2,V3,V4之間有比較高的相似性,V3a和MT區也有比較高的相似度。雖然V3和V3a在解剖上距離很近,但是它們的相似度較低。這是因為V1,V2,V3,V4與客體識別相關,而MT和V3a區對運動資訊更加敏感。
總結與展望
最後,對我們的工作進行一個總結。我們提出了一個基於多檢視生成模型的重建框架,這個框架具有很好的擴充套件性,它可以挖掘不同模式之間的共同表徵並建立兩者之間的關係,這樣使得Mind Reading成為可能。我們還研究了深度特徵在大腦皮層上的表達,但是現在的研究還存在一些侷限性,比如自然影象刺激的fMRI樣本量很少,所以目前只能在數字、字母、符號上有較好的重建效果,對自然影象的重建效果還有待研究。而且,目前採用的是靜態編解碼,下一步將採用動態編解碼,比如利用RNN,LSTM。此外,我們認為解決編解碼問題的方法可以借鑑機器翻譯中的對偶學習思想。值得一提的是,將VAE和GAN結合也值得嘗試。
這個工作受到了基金委的支援,其中的主要工作是我的博士生杜長德完成的,謝謝。
文中引用文章的下載連結為:
http://pan.baidu.com/s/1i4JSId3
致謝:
本文主編袁基睿,誠摯感謝志願者楊茹茵對本文進行了細緻的整理工作
該文章屬於“深度學習大講堂”原創,如需要轉載,請聯絡 astaryst。
作者資訊:
作者簡介:
何暉光,中科院自動化所研究員,博生生導師,中國科學院大學人工智慧學院腦認知與智慧醫學教研室主任、崗位教授,中科院青年創新促進會優秀會員。中科院腦科學與智慧技術卓越中心團隊成員。中國圖象圖形學會視覺大資料專委會及機器視覺專委會常務委員,IEEE高階會員,CCF-CV專委會委員。分別於1994年(本科),1997年(碩士)畢業於大連海事大學,2002年在中國科學院自動化研究獲博士學位。曾在美國羅切斯特大學、加拿大滑鐵盧大學、美國北卡大學教堂山分校做博士後、高階研究學者。何暉光博士先後主持5項國家自然科學基金(包括國家自然基金重點專案)、2項863專案等,先後獲得國家科技進步二等獎兩項(分別排名第二、第三),北京市科技進步獎兩項,中科院首屆優秀博士論文獎,北京市科技新星,中科院”盧嘉錫青年人才獎”,中科院青促會優秀會員等榮譽稱號。任國家自然科學基金, 國家863計劃以及科技部國際合作專案的評審專家。其研究領域為腦與認知科學,模式識別,醫學影像處理,腦-機介面,計算機圖形學等, 其研究結果在NeuroImage, Human Brain Mapping, Pattern Recognition, MICCAI等相關領域的國內外核心期刊以及國際主流會議上發表文章一百餘篇。
VALSE是視覺與學習青年學者研討會的縮寫,該研討會致力於為計算機視覺、影象處理、模式識別與機器學習研究領域內的中國青年學者提供一個深層次學術交流的舞臺。2017年4月底,VALSE2017在廈門圓滿落幕,近期大講堂將連續推出VALSE2017特刊。VALSE公眾號為:VALSE,歡迎關注。
往期精彩回顧
歡迎關注我們!
深度學習大講堂是由中科視拓運營的高質量原創內容平臺,邀請學術界、工業界一線專家撰稿,致力於推送人工智慧與深度學習最新技術、產品和活動資訊!
中科視拓(SeetaTech)將秉持“開源賦能共發展”的合作思路,為企業客戶提供人臉識別、計算機視覺與機器學習領域“企業研究院式”的技術、人才和知識服務,幫助企業在人工智慧時代獲得可自主迭代和自我學習的人工智慧研發和創新能力。
中科視拓目前正在招聘: 人臉識別演算法研究員,深度學習演算法工程師,GPU研發工程師, C++研發工程師,Python研發工程師,嵌入式視覺研發工程師,運營經理。有興趣可以發郵件至:[email protected],想了解更多可以訪問,www.seetatech.com
中科視拓
深度學習大講堂
點選閱讀原文開啟中科視拓官方網站