1. 程式人生 > >MIT與谷歌專家合著論文:機器學習和神經科學的相互啟發與融合

MIT與谷歌專家合著論文:機器學習和神經科學的相互啟發與融合

摘 要

神經科學專注的點包括計算的細節實現,還有對神經編碼、力學以及迴路的研究。然而,在機器學習領域,人工神經網路則傾向於避免出現這些,而是往往使用簡單和相對統一的初始結構,以支援成本函式(cost funcion)的蠻力最優化。近期出現了兩項機器學習方面的進展,或許會將這兩種看似不同的視角連線起來。第一,結構化的架構得以使用,這些架構包括注意力、遞迴,以及各種長、短期記憶儲存專用系統。第二,隨著時間以及層數的變化,成本函式和訓練程式也會變化並越來越複雜。我們根據這些理論,對大腦進行了進一步思考,並作出如下假設:(1)大腦最優化成本函式,(2)在大腦成長的不同時期,或在大腦中的不同位置中,成本函式各不相同,種類多樣。(3)預構建的架構與行為引發的計算問題相匹配,優化就在這種架構中進行。這樣一個由一系列互相影響的成本函式支撐的混雜的優化系統,旨在讓學習更加有效地應用資料,更精確地瞄準機制的需要。我們建議了一些方向,神經科學研究人員可以對這些假設進行改進和測試。

引 言

當今的機器學習和神經科學領域沒有共同話題。腦科學領域中,已經發現了一系列不同的大腦區域、細胞型別、分子、元胞狀態、計算和資訊儲存機制等。相比之下,機器學習則主要關注單個原則的例項化:函式優化。據研究發現,最小化分類錯誤等簡單的目標優化,就可能會使多個網路層和迴圈網路中形成大量的內在表徵和強大的演算法能力。(LeCun et al.,2015;Schmidhuber,2015)。下面我們看看如何將這些觀點統一起來。

當然,機器學習中占主導地位的人工神經網路最初來源於神經科學的啟發(McCulloch and Pitts,1943)。雖然神經科學一直在發揮作用(Cox and Dean,2014),但其中很多重大突破,都不是得益於神經科學的發現(Sutskever and Martens, 2013),而是因為人們對有效優化問題中的數學問題進行洞察而受到了啟發。該領域從簡單的線性系統(Minsky and Papert, 1972),發展為非線性網路(Haykin,1994),然後成為深度和迴圈網路(Schmidhuber,2015; LeCun et al., 2015)。

誤差的反向傳播(Werbos, 1974, 1982;Rumelhart et al., 1986)提供了一種有效的方法,可以計算與多層網路權重相關的梯度,使得神經網路可以進行有效的訓練。訓練的方法不斷提升,開始包含衝量項,更優良的權重初始化,共軛梯度等,經過這樣的演化,形成了現在用批量隨機梯度下降實現優化的網路。這些進展與神經科學幾乎沒有明顯的關聯。

然而,我們認為神經科學和機器學習已經準備好再次匯聚。論文中關於機器學習有三個重要方面:

第一,機器學習主要關注成本函式的最優化問題(見下圖)。
機器學習關注成本的最優化

圖1:傳統設計和類腦神經網路設計之間假定的區別。A)在傳統深度學習中,監督訓練是基於外部提供的標記資料。B)在大腦中,網路的監督訓練能通過在錯誤訊號上的梯度下降靜態發生,但這一 錯誤訊號必須是由內部生成的成本函式產生。這些成本函式通過神經模組進行自計算,而神經模組是由遺傳和學習特定的。內部生成的成本函式創造啟發能力,能夠自助產生更復雜的學習能力。例如,一個識別面部的大腦區域可能首先會被訓練使用簡單啟發能力檢測面部,就像一條線上面有兩個點,然後使用由非監督學習和錯誤訊號(從其他與社會獎勵流程有關的腦部區域產生的訊號)產生的表徵進一步訓練如何區別有特色的面部表情。C)內部生成的成本函式和皮質深度網路的錯誤驅動訓練部分組成了一個更大的包含數個專門系統的架構。儘管可訓練的皮質區域在這裡扼要表示為前饋神經網路,LSTM 或其他型別的迴圈網路可能會是一個更為精準的類比。而且,樹突計算、spiking 神經網路、神經調節、自適應、 TDP(timing-dependent plasticity)等很多的神經特性將影響到網路如何學習、學習什麼。

第二,最近的機器學習研究中,已經開始引入複雜的成本函式,這些函式在不同網路層中和不同時間下並不統一,而且它們形成於網路不同部分的互動中。比如,為低層次網路引入時間相干性(隨空間變化的非統一成本函式)的目標會提升特徵學習的效能(Sermanet and Kavukcuoglu,2013)。還有一個源於內部互動的成本函式的例子,即成本函式時間表(隨時間變化的非統一成本函式) 會提升泛化能力(Saxe et al., 2013;Goodfellow et al., 2014b; G¨ul,cehre and Bengio,2016)和對抗網路的效能, 這使得生成模型可以基於梯度進行訓練(Goodfellow et al., 2014a)。易於訓練的網路可以用來提供「hint」(提示),以幫助更強大的網路進行自助訓練。(Romero et al. ,2014)

第三,機器學習中,受最優化約束的架構已經開始變得多樣化。如今,機器學習已經引入的內容包括:簡單記憶細胞,這些細胞持有多個連續狀態(Hochreiter and Schmidhuber, 1997;Chung et al., 2014);含有「capsules」(膠囊)等架構的更復雜的基本單元(Hinton et al., 2011; Livni et al.,2013;Delalleau and Bengio,2011;Tang et al.,2012);以及內容可定址儲存器和位置可定址儲存器(Graves et al., 2014);指標(Kurach et al., 2015);硬編碼算術操作(Neelakantan et al.,2015)等。目前,我們的這三條假設還未引起神經科學界的廣泛關注,因此我們將其闡述了出來,並對其進行考究,然後描述了實驗和測試的方法。首先,讓我們再對其進行更準確的陳述。

假設1——大腦最優化成本函式

連線這兩個領域的核心假設是生物系統能像其他很多機器學習系統一樣能夠優化成本函式。成本函式的思路意味著大腦中的神經元如何改變它們的特性,例如,神經突觸的特性,如此無論成本函式怎麼定義它們的角色,它們都能變得更好。人類行為有時在某個領域會有最優方法,例如運動行為中(K¨ording, 2007),這表明大腦可能學習到了最優策略。物件在移動系統中,會最低限度的消耗能量(Taylor and Faisal, 2011),並且會採取風險最低、對身體損傷最小的方式,同時,最大化金錢和活動上的收穫。從計算上來看,我們現在知道移動軌跡的最優化為每一個複雜的運動任務提供了精緻的解決方案(Mordatch et al., 2012; Todorov and Jordan, 2002; Harris and Wolpert, 1998)。我們提議,在大腦使用的內部表徵和流程的塑造上有更為普遍的成本函式最優化。我們同樣表明,這需要大腦在多層網路和迴圈網路中有著有效的信用分配機制。

假設2——成本函式因區域不同而有區別,也會隨著發育而改變

第二個實現原則是成本函式不需要是全域性的。不同大腦區域的神經元可能優化不同的事情,比如,運動行為的均方差,在視覺刺激或注意力分配行為中可能變得令人驚奇。重要的是,這樣的一個成本函式能夠在本地生成。例如,神經元能夠本地評估輸入的統計模型的質量(圖 1B )。作為一種替代選擇,某一領域的成本函式可由另一領域生成。另外,成本函式可能會隨時間發生變化,比如,早些時候引導年輕人理解簡單的視覺對比,晚些時候再做一次。這可能會讓成長中的大腦基於簡單的知識自助產生更為複雜的知識。大腦中的成本函式可能因不同的區域有不同的複雜度,也會隨大腦發育而產生變化。

假設 3——專業化系統能夠高效解決關鍵計算問題

第三個實現原則是結構很重要。看起來,大腦不同區域的資訊流模式不同,這表明它們解決不同的計算問題。一些大腦區域高度迴圈,這注定它們進行短期記憶儲存 (Wang, 2012)。一些區域包含的細胞能夠在不同的活化狀態間切換,比如,作為對特定神經遞質的迴應,一個持續釋放訊號的模式與一個瞬時釋放訊號的模式。其他區域的資訊流過丘腦時,丘腦似乎能掌握這些資訊。像是丘腦這樣的其他區域可能會讓它們決定資訊的路線(Sherman, 2005)。像基底神經節(basal ganglia)這樣的區域涉及到強化學習和離散決策的門脈(Sejnowski and Poizner, 2014; Doya, 1999),就像每一個程式設計師瞭解的那樣,專門演算法對計算問題有效的解決方案很重要,而大腦似乎很善於利用這樣的專門化(圖 1C)。

這些思路受到了機器學習近期進展的啟發,但我們也提出了大腦與如今的機器學習技術有很大區別。特別是,我們能夠用於監督學習的資訊量是有限的(Fodor and Crowther, 2002)。雖然可用於無監督學習的資訊量非常大,但無論其多麼強大,我們毫無理由假設出一個通用的無監督演算法,為了掌握這些知識能夠學習人類需要知道的精確事務。因此,進行無監督學習的發展挑戰是解決「正確的」問題,去發現一系列的成本函式。這些成本函式將根據描述的發展階段,確切地建立迴路和行為,以便於最終用相當小的一部分資訊就足以產生正確行為。例如,一個成長中的鴨子會銘記其父母的模板(Tinbergen, 1965),然後使用這一模板產生幫助其發展其他技能的目標靶向,比如覓食能力。

從此研究和其他研究(Ullman et al., 2012; Minsky, 1977)中進行歸納,我們提出,很多的大腦成本函式產生於這樣的一個內部自助過程(internal bootstrapping process)。確實,我們提出生物發育和強化學習實質上能夠編寫出一系列成本函式,這些成本函式可精確的預料大腦內部子系統和整個機制需要的面對的未來狀況。這類的發育型編寫自助法會產生成本函式的一個內部基礎架構,既不同又複雜,然而這可以簡化大腦內部流程面臨的學習問題。超越家族印記這樣的簡單任務,這類自助法可擴展出高度的認知能力,例如,內部生成的成本函式可訓練一個發育中的大腦,讓其適當的獲取記憶,或以一種有用的方式組織自我行為。我們將考慮在無監督和強化學習環境中運用這種潛在的自助機制,超越如今機器學習中使用的這種課程式學習思路(Bengio et al., 2009)。

在此論文的其他部分,我們將詳細說明這些假設。首先,我們認為區域性和多層最優化是與我們所知的大腦相容的,這可能會令人驚訝。第二點,我們認為成本函式因大腦區域不同而不同,也會隨時間發生變化,並且將會描述成本函式如何以一種協調的方式相互作用從而准許複雜函式的自展。第三,我們將列出一組廣泛的、需要由神經計算解決的專門問題。而後,我們討論了上述假設對神經科學和機器學習研究途徑的一些影響,而且梗概描述了一組實驗測試這些假設。最終,我們從進化的角度討論了這一體系結構。

機器學習啟發下的神經科學

如果一個假設能夠帶來合乎實際且可測試的預測,它就是有用的。所以,現在我們希望重新回顧一下這些神經科學上的假設,看看可以在那個層面上直接測試這些測試,以及通過神經科學加以改善。

假設1 —— 成本函式的存在

有很多一般策略(general strategies)來解決這個問題:大腦是否以及如何優化成本函式。第一個策略是以觀察學習終結點(endpoint)為基礎的。如果大腦使用了一個成本函式,而且我們能夠猜出它的身份(identity),大腦的最終態應該接近成本函式最優(optimal for the cost function )。如果知道自然環境的統計情況,並且知道這個成本函式,那麼,我們就能比較在模擬中得以優化的接受域(receptive fields)和被測量的接受域。人們剛剛開始使用這一策略,因為很難測量接受域或大量神經元的其他表徵特徵,但隨著大規模記錄方法的出現,這種情況正在從技術上開始被改善。

第二種方法可以直接量化成本函式描述學習的優良度。如果學習的動態性最小化了一個成本函式,那麼,基礎的向量場應該有一個強梯度下降法型別元件和一個弱轉動元件(weak rotational component)。如果我們能在某種程度上,持續監測突觸強度,並從外部操縱它們,那麼,原則上,我們就可以在突觸權重空間中測量向量場,並計算其散度和旋轉。對於至少一組正在通過某種逼近梯度下降方式接受訓練的突觸子集來說,較之轉動元件,發散元件應當強壯一些。由於需要監測大量突觸權重,實驗難度阻礙了這一策略的發展。

第三種方法的基礎是攝動函式:基於學習的成本函式應該可以撤銷打斷最優的攝動帶來的影響。舉個例子,在攝動之後,系統應該回到最小值,而且實際上,在一次足夠小的攝動後,或許回到同一個本地最小值。如果我們改變突觸聯絡,比如,在腦機介面的語境中,我們應該能夠得到一個重組,可以根據猜出的相關成本函式預測到它。在大腦皮層的運動區,這一策略正在變得可行。

最後,如果我們從結構上知道,哪些細胞型別和連線調節著錯誤訊號vs輸入資料或其他型別連線,那麼,就可以刺激特定連線,以便施加一個使用者界定的成本函式。實際上,我們可以使用大腦自己的網路作為一個可訓練的深度學習底層(substrate),然後研究網路如何響應訓練。腦機介面可被用來設定特定的本地學習問題,其中,要求大腦建立某些使用者指定的表徵,而且,這一過程的動態性可以受到監控(Sadtler et al .,2014)。為了合理做到這一點,首先,更多地瞭解被連線用於傳輸成本訊號的系統。比如,可以在連線組迴路圖中找到的結構中的大部分內容,不僅僅與短時間計算相關,也是為了創造出支援成本函式及其優化的基礎架構。

文中已經討論過的許多學習機制都對連線性或動態進行了具體預測。比如,生物BP的「反饋校準(feedback alignment) 」表明,在神經元分組(neuronal grouping)水平上,皮層反饋連線應當在很大程度上與相應的反饋連線協調起來。

一些為了學習時間序列,吸收了樹突巧合監測(dendritic coincidence detection)的模型,預測出一個給定的軸突在給定的樹突段只能產生少量突出(Hawkins and Ahmad, 2015)。涉及 STDP 的學習模型將預測改變放電率的動態情況(Hinton, 2007, 2016; Bengio et al., 2015a; Bengio and Fischer, 2015; Bengio et al., 2015b),也會預測特定的網路結構,例如,那些基於自編碼器或者再迴圈的網路結構。其中,STDP 可以產生一種反向傳播的形式。

關鍵在於建立起優化的單元。我們想知道,可以通過某種梯度下降最優相似法加以訓練的模組規模。共享一個給定誤差訊號或成本函式的網路的大小如何?在何等規模上,適當的訓練訊號可以被傳遞?可以說,原則上,大腦被端對端優化了。在這種情況下,我們會期待找到將訓練訊號從每層傳到前一層的連線。

優化可以以連續較小規模的方式發生在一個大腦區域裡,比如,一個微迴路或者一神經元(K¨ording and K¨onig, 2000, 2001; Mel, 1992; Hawkins and Ahmad, 2015) 。重要的是,這些優化可以在這些規模上共存。可能會有一些端到端的慢性優化,也可能在某個區域性區域有更強大的優化方法,以及每個細胞內部可能有非常有效的演算法。精心設計的實驗可以識別出優化規模,比如,通過區域攝動來量化學習範圍。

在某種程度上,結構函式的緊密關係是分子和細胞生物學的標誌,但是,在大型鏈結式學習系統中,這種關係卻難以提取:通過讓其經受不同訓練,可以驅動相同的初始網路去計算很多不同的函式。但是,理解神經網路解決問題的方式,還是很難的。

怎麼樣才能分辨出梯度下降訓練網路、未經訓練或隨機的網路、被訓練用來針對某一種特定任務的網路之間的區別呢?一種可能的方法是訓練人工神經網路來對抗各類候選成本函式,研究產生的神經調諧特性(Todorov, 2002),然後將它們與那些興趣電路進行比較 (Zipser and Andersen, 1988)。這種方法已經在 PFC 解釋神經動力學基礎決策中有所應用(Sussillo, 2014),並且在後頂葉皮層記憶,後頂葉皮層的工作記憶,以及視覺系統的物體呈現中發揮作用(Rajan et al., 2016)。在任何情況下,複雜機器學習系統逆向工程的有效分析方法 和生物大腦逆向工程的方法可能有一些共性。

這是否強調了功能優化和可訓練基板意味著我們應該放棄基於細節測量和特定的相關性與動態模式大腦逆向工程?

相反:我們應該大規模繪製腦譜,試著更好地理解 a)大腦如何實現優化,b)訓練訊號從哪裡來和它們體現了什麼成本函式,還有 c)在不同的組織水平上,存在什麼樣的結構來約束這個優化以有效找到這類特定問題的解決方法。答案也許會受到神經元和網路本身不同性質的影響,如神經結構的同質化規則,基因表達和功能 ,突觸型別的多樣性和細胞型別的特定連線 (Jiang et al., 2015),層間的模式預測和抑制神經元型別的分佈,和樹突狀目標以及樹突狀定位和本地樹突的生理性和可塑性( Markram et al., 2015; Bloss et al., 2016; Sandler et al., 2016),或者區域性神經膠質網。它們也可能受到更高級別的大腦神經系統的綜合性質,包括髮展引導機制(Ullman et al., 2012),資訊由路 (Gurney et al., 2001; Stocco et al., 2010),以及注意力(Buschman and Miller, 2010)和分層決策的影響 (Lee et al., 2015)。

繪製這些系統的細節對於理解大腦如何工作至關重要,下至至納米級的離子通道樹突狀組織,上至皮質、紋狀體(striatum)和海馬體的全域性協調,所有這些在我們詳細說明的框架中都計算性相關。因此我們預計大規模、 多解析度的腦譜會在測試這些框架思路中非常有用,對啟發其改進,以及使用它們進行更多的細節分析上也非常有幫助。

假設2 ——生物學的成本精細結構

可以清楚的是,我們能夠畫出大腦所有區域的結構差異、動態差異和每個區域所代表內容的差異。當我們找到這些差異,剩下的問題就是,我們是否能夠闡釋這些由內部產生的成本函式造成的差異,而不是那些在資料輸入中產生的差異,或者是反映其他無關成本函式的約束的差異。如果我們能夠直接測量不同區域成本函式的各個方面,這樣我們就能在不同區域間做出比較。例如,逆強化學習方法可能允許從觀察到的可塑性中返回成本函式 (Ng and Russell, 2000)。

此外,當我們開始理解特定成本函式的「神經連結」— 也許按照特定的突觸或者神經調節學習規則,基因引導區域性佈線圖案,或者腦區之間的互動模式編碼 — 我們也能開始理解觀察到的神經迴路架構中的差異,在什麼時候反映出成本函式中的差異。

我們預計,對於每個不同的學習規則或成本函式,可以存在能識別具體分子型別的細胞或突觸。此外,對於每個專門系統,可能有具體分子識別的發育程式,來調整或以其他方式設定其引數。如果進化已經需要調整一個成本函式的引數而不會對其他成本函式造成影響,這就是非常有有意義的事。

大腦產生了多少不同型別的內部訓練訊號?說到錯誤訊號時,我們不只在討論多巴胺和血清素,或者其他經典獎勵相關的通路。這個錯誤訊號沒必要等同於獎勵訊號,但或許會通過類似於進度下降或者其他的方式用於訓練大腦中的特定子網路。將用於驅動優化大腦中特定子電路的成本函式,與哪些是「代價函式」或「效用函式」區分開來非常重要,即預測代理聚集未來獎勵的功能。在這兩個案例中,可能會使用類似的強化學習機制,但是各自對成本函式的闡釋是不同的。雖然它們被廣泛延伸到其他研究,但我們還沒有強調這裡的動物是否具有全球性實用功能(e.g., (O’Reilly et al., 2014a; Bach, 2015))。因為我們認為,即便它們很重要,也只是整個佈局的一部分,也就是說大腦不完全是端到端的強化訓練系統。

腦圖譜的研究進展可能很快可以允許我們對腦中的迴路訊號型別進行分類,對大腦進行細緻的解剖和實現整個大腦獎賞迴路的連線,並且詳細畫出獎勵迴路是如何與波紋體、皮質、海馬體和小腦微電路整合在一起的。這個程式已經被放進蒼蠅大腦,這個大腦有 20 個特定型別的多巴胺神經元,連線到解剖中對應的不同蕈形體,訓練不同的氣味分類器在一組高維氣味表示(odor representations)上執行(Aso et al., 2014a,b; Caron et al., 2013; Cohn et al., 2015)。我們已經知道,即使在同一系統內,諸如蒼蠅嗅覺迴路,一些神經元的佈線高度特定的分子程式設計,而其他佈線實際上是隨機的,但是這些其他佈線也是值得學習的(Aso et al., 2014a)。這些設計原則之間的相互作用,可能會在遺傳與學習之間產生多種形式的「分工」。同樣的,鳥鳴學習是通過使用依靠與記憶中的大鳥名叫版本進行比較的專門成本函式,進行強化學習的(Fiete et al., 2007),此過程也包括了學習過程中控制鳴聲變調的專門結構(Aronov et al., 2011)。這些構成聲音學習成本函式構造基礎的細節迴路圖譜正在繪製中(Mandelblat-Cerf et al., 2014)。從簡單的系統開始,繪製獎勵迴路以及它們如何進化和多樣化發展應該是可能的。這將在理解系統如何學習的道路上邁出重要一步。

假設3 —— 嵌入一個預結構化體系結構

同樣的,鳥鳴學習是通過使用依靠與記憶中的大鳥名叫版本進行比較的專門成本函式,進行強化學習達到的(Fiete et al., 2007),這個過程也涉及了學習過程中控制鳴聲變調的專門結構(Aronov et al., 2011)。這些構成聲音學習成本函式構造基礎的細節迴路圖譜正在開始繪製中(Mandelblat-Cerf et al., 2014)。從簡單的系統開始,繪製獎勵迴路,以及它們如何進化和多樣化發展應該是可能的。這將在理解系統如何學習的道路上邁出重要一步。

神經科學啟發下的機器學習

機器學習同樣可以被神經科學改變。在大腦中,大量子系統和層級一起運作,生成一個呈現出通用智慧的代理(agent)。僅用相對較小的資料量,大腦就可以在廣泛問題上表現出智慧行為。同樣的,在理解大腦上取得的進展也有望改善機器學習。這一部分,我們回顧了之前有關大腦的三個假設,並討論這些詳加闡述的假設將如何有助於打造更加強大的機器學習系統。

假設1—— 存在成本函式

一位好的機器學習從業者應當掌握廣泛的優化方法,因地制宜地解決不同問題。我們已經指出,大腦是一種暗含的機器學習機制,歷經數百萬年的進化。因此,我們應該預期大腦能夠橫跨許多領域以及資料種類,高效優化成本函式。實際上,我們甚至見證過跨越不同動物種群的、某種大腦結構的收斂演化(Shimizu and Karten, 2013; G¨unt¨urk¨un and Bugnyar, 2016),比如,鳥類大腦仍然沒有皮層,但有發達的同源結構——正如試驗證實非洲灰鸚鵡有語言技能一樣——這種結構是相當複雜智慧的來源。似乎有希望實現這一點:通過觀察大腦,學會如何實現真正的通用目的優化。

實際上,通過觀察大腦可以期望發現多種型別的優化。在硬體層面,大腦明確地設法高效對函式進行優化,儘管低速硬體受制於分子變動,這意味著,機器學習硬體的改進方向應該是更高效的能源利用率。在學習規則的層面,大腦在一種高度非線性的、不可微分的、時間隨機的 spiking 系統中解決優化問題,該系統包含海量反饋連線,我們仍然不知道如何針對神經網路,有效解決這個問題。在結構層面,大腦能在僅有極少刺激的基礎上,優化某類函式,並在各種時間尺度上執行,而且使用先進的積極學習形式來推斷因果結構。

儘管就大腦如何實現優化,我們討論過很多理論( (Hinton, 2007, 2016; Bengio et al., 2015a; Balduzzi et al., 2014; Roelfsema et al., 2010; O’Reilly, 1996; O’Reilly et al., 2014a; K¨ording and K¨onig, 2001; Lillicrap et al., 2014),但是,這些理論仍然是預備性的。因此,第一步就是理解大腦是否真的以近似全梯度下降的方式進行多層信度分配,如果真是這樣,它是如何做到的。無論是哪一種方式,我們都可以預期問題的回答會影響到機器學習。如果大腦並不進行某種反向傳播(BP),那麼,這意味著理解大腦用來避免這樣做的技巧,大腦也會受益於此。另一方面,如果大腦不進行 BP,那麼,潛在的機制就能支援跨領域的、各種有效優化處理,包括從豐富的時間資料流,通過無監督機制進行學習,而且對於機器學習來說,背後的結構可能具有長期價值。

而且,搜尋 BP 的生物合理性形式已經產生了一些有趣的洞見,比如,在 BP 中使用隨機反饋權重的可能性(Lillicrap et al., 2014),或者在混沌、自發的積極迴圈網路中,意料之外的內 FORCE 學習力量( (Sussillo and Abbott, 2009)。這一點以及這裡討論的其他發現表明,對於 BP,我們仍然存在某些根本性的不瞭解——這不但會產生更多具有生物合理性的方式,可資用來訓練迴圈神經網路,從根本上說,這些方式會更加簡單,也更加強大。

假設 2——成本函式的生物學精細結構

一個好的機器學習從業者應該接觸廣泛學習技巧,這意味著能夠使用許多不同的成本函式。一些問題需要集簇,一些問題需要提取稀疏變數,還有些問題需要預測質量最大化。大腦也要能夠處理許多不同的資料組。同樣,大腦因地制宜地使用廣泛成本函式解決問題,求生存,也是有意義的。

許多最著名的深度學習的成功,從語言建模( Sutskever et al., 2011)到視覺(Krizhevsky et al., 2012)到運動控制(motor control)( Levine et al., 2015),都是端到端的單個任務目標優化驅動的。我們已經突出了一些情況,其中,深度學習已經為成本函式的多樣性開啟了大門,後者將網路模組塑造成了具有專門作用的角色。我們預期,今後,機器學習會越來越多地採納這些實踐經驗。

在計算機視覺方面,我們已經開始看到研究人員會為一個任務(比如ImageNet 分類)重適神經網路訓練,然後部署到新任務上,除了它們被訓練用來解決的任務,或者提供了更加有限的訓練資料的任務(Yosinski et al., 2014; Oquab et al., 2014; Noroozi and Favaro, 2016))。我們設想這一過程能加以泛化,以系列或並行的方式,各種訓練問題,每個都帶有一個關聯成本函式——可被用來塑造視覺表徵。這樣訓練出來的網路能夠被共享,增強以及保留在新任務上。他們能被當做前端,介紹給執行更加複雜目標的系統,或者服務於產生訓練其他迴路的成本函式((Watter et al., 2015)。作為一個簡單的例子,一個可以區別不同結構架構(比如金字塔或者樓梯等)圖片的網路,可被用來評判一個建築施工( building-construction)網路。

從科學角度來說,確定成本函式參與生物學大腦的順序,將讓機器學習瞭解如何利用複雜和分層行為,通過逐個擊破的方法(通常被用來解決學習問題、積極學習以及更多問題),來建構系統。

假設3——內嵌於預結構化架構

一個好的機器學習從業者應該掌握廣泛演算法。動態程式設計可以高效解決一些問題,雜湊演算法可以解決另一些問題,有些問題可以通過多層 BP 得到解決。大腦要能解決廣泛學習問題,無需進行奢侈地再程式設計。因此,大腦擁有專門結構,允許快速學會逼近大量演算法,就很有意義了。

第一個神經網路是簡單的單層系統,或線性或受限非線性(Rashevsky, 1939)。1980s 神經網路研究爆炸式發展,出現了多層網路,接下來是諸如卷積 網路的神經網路(Fukushima, 1980; LeCun and Bengio, 1995)。過去二十年,已經研究出LSTM( Hochreiter and Schmidhuber, 1997),內容可選址儲存器的控制(Weston et al., 2014; Graves et al., 2014)以及增強學習實現的玩遊戲(Mnih et al., 2015)。這些網路,儘管在以前看來很新鮮,如今正變成主流演算法。還沒有跡象表明研發各種新結構化結構的工作正在停止,而且大腦回路的非均質化和模組化意味著,需要各種專門架構來解決舉止規範的動物所面對的各種挑戰。

大腦將一堆專門結構以一種有用的方式組合起來。在機器學習中,重新解決這個問題可能會很難,因此從觀察大腦的運作方式來解決這個問題,就很有吸引力。理解專門結構的寬度以及將它們組合起來的結構,會很十分有用。

進化會使成本函式從優化演算法中分離嗎?

深度學習方法已經在機器學習領域中颳起了一片熱潮。驅動其成功的因素是將學習問題分離成兩部分:(1)一種演算法,反向傳播,允許有效的分散式優化;(2)通過設計一個成本函式和訓練過程等方法將給定的問題轉化為一個優化問題。如果我們想將深度學習應用到一個新的領域,例如,玩Jeopardy,我們不需要改變優化演算法,我們只需要巧妙地設定正確的成本函式。在深度學習中,大多數的工作都是以建立正確的成本函式為重點的。

我們假設,大腦也掌握到了分離優化機制和成本函式的方法。如果神經迴路,比如皮質中的神經迴路,實現一個通用的優化演算法,那麼之後該演算法的任何改進都將改善全大腦皮質的功能。同時,不同的皮質區,解決不同的問題,所以改變每個皮層區的成本函式相當於提高其效能。因此,將優化問題和成本函式產生問題進行功能性地和進化性地分離,可以進化、產生更好、更快的計算。例如,普通的無監督機制可以結合特定區域基於強化或監督的機制以及錯誤訊號,進來機器學習的很多進展已經發現了一種在單一系統中結合監督和無監督物件的自然方式Rasmus and Berglund,2015)。

這顯示出一些有趣的問題:成本函式和優化演算法之間的分裂發生在什麼時候?這種分離是如何實現的?如何發展成本函式和優化演算法的創新?我們的成本函式和學習演算法如何把這些與其他動物區分開來。

關於這種區分如何在大腦中形成有很多種可能。六層皮層可能代表著共同的優化演算法,但在不同的皮層區域具有不同的成本函式。這種說法不同於所有的皮質區使用一個單一的無監督學習演算法實現功能的特異性調整的輸入演算法的說法。在那個情況下,優化機制和隱含的無監督成本函式將在相同區域(例如,最小化預測誤差),只有樣本資料來自不同領域,而我們建議,優化機制應是一樣的跨區域,但成本函式和訓練中的資料則來自不同的區域。因此,包括它的輸入和輸出資料,成本函式本身就像皮質區的一個輔助輸入。之後,一些皮質微電路也許就可以計算被傳遞到其他皮質微電路的成本函式。

另一種可能性是,在同一線路中,佈線和學習規則在某些方面指定一個優化機制,並在跨領域中被相對固定,而另一些指定的成本函式則更多變。後者很可能類似於作為分子和結構配置元素概念的皮質微電路,在現場可程式設計門陣列類似的細胞(FPGA)(Marcus et al.,A,B),而不是一個同質襯底。這樣一種分離的生物性質,如果存在,仍然是一個懸而未決的問題。例如,一個神經元的各個部分可以分別處理優化成本函式的規範,或一個微電路的不同部分,或者是特定型別的細胞,其中一些通過成本函式進行訊號處理和其他處理。

結 論

由於大腦的複雜性和可變性,單純的「自底向上」神經資料分析面可能會面對理解上的挑戰(Robinson, 1992; Jonas and Kording, 2016)。理論框架有可能用來約束被評估的假設空間,這使得研究者能首先處理更高等級的系統原理和結構,然後「放大」以處理細節。提出了「自上而下」的理解神經計算框架,包括熵最大化,有效編碼,貝葉斯推理的一一逼近,錯誤預測的最小化,吸引子動力學,模組化,促進符號操作的能力,和許多其他的框架(Bialek, 2002; Bialek et al., 2006; Friston, 2010; Knill and Pouget, 2004; Marcus, 2001; Pinker, 1999)。有趣的是,許多「自上而下」的框架歸結為假定大腦只是優化了一個單一的,給定的單一計算架構成本函式。我們歸納的這些提議假定了在發展中演變的異構成本函式組合和專門子系統的多樣性。

許多神經科學家致力於搜尋「神經碼」,即,哪種刺激有助於驅動個體神經元、區域或大腦地區的活動。但是,如果大腦能夠一般優化成本函式,那麼我們需要意識到,即使是簡單的成本函式也能引起發覆雜的刺激反應。這有可能導致一系列不同的問題。不同的成本函式確實是有效思考大腦地區不同函式的方法嗎?大腦中成本函式的優化究竟是如何發生的,這和人工神經網路的梯度下降實現方式有何區別?什麼是目前優化時電路中保持不變的附加約束?優化是如何與結構構架相互作用的?這個構架和我們所勾畫的構架相似嗎?哪種計算連線到構架,哪種出現在優化中,哪種由極端混合體引起?成本函式在大腦中被明確計算到什麼程度,與在本地學習規則中相比?大腦已經進化到可以區分成本函式生成機制和成本函式優化機制了嗎?如果是的話,怎麼辦到的?哪種元層次學習可能是大腦用來在眾多選擇中學習何時及如何喚醒不同的成本函式或專門系統來處理給定任務的?這個框架的關鍵機制是什麼?神經科學和機器學習之間的更深入的對話能幫助闡釋其中的一些問題。

許多機器學習研究者致力於尋找更快的方法,在神經網路中實現端到端的梯度下降。神經科學可能會在多個層次上啟發機器學習。大腦中的優化演算法已經經歷了上百萬年的演變。此外,大腦可能已經找到了使用在發展中互相作用的異構函式從而通過引導和塑造無監督學習的結果來簡化學習問題的方法。最後,在大腦中進化來的專門結構,可能會告訴我們如何在一個要求在多個時間尺度上解決廣泛計算問題的世界中提高學習效率的方法。從神經科學的角度看問題可能會幫助機器學習在一個結構異構化的,只有少量監督資料的世界中,提高到正常智力。

在某種程度上,我們的提議與許多流行的神經計算理論是背道而馳的。這裡不只有一個優化機制而可能有許多個,不只有一個成本函式而有一大群,不只一種表示而有任何有用的表示,不只一個異構的結構而有許多這樣的結構。這些元素被內部產生的成本函式優化聯絡到一起,這使得這些系統充分利用彼此。拒絕簡單的統一理論和先前廣泛的 AI 方法一樣。例如,Minsky 和 Papert 的《心智社會》(Society of Mind,Minsky, 1988)和更廣泛的基因演化想法及連線系統的內部自舉發展(Minsky, 1977)——強調了對內部監視和批評體系、專業通訊和儲存機制以及簡單控制系統的分層結構的需要。

寫這些早期作品時,還不是很確定基於梯度優化能否引起強大的特徵表示和行為政策。我們的提議可以被視為一個反對簡單端到端訓練,支援異構方法的重新討論。換句話說,這個框架之可以被視作提出了一種成本函式及可訓練網路「社會」,它允許《Society of Mind》(Minsky, 1988)的內部自助過程。從這個觀點看,智力能被許多計算專業結構啟用,每個結構被自我發展調節的成本函式訓練,其中結構和成本函式都是被類如神經網路超引數的進化優化過的。

轉自:
http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650716140&idx=1&sn=3d74ee2545c20cba8189d445202f6f31&scene=21#wechat_redirect