最新研究:聲音和詞語在大腦中並行處理
8 月 26 日訊息受到生物神經網路的啟發,目前深度神經網路已經被證實效果很好。如今,深度神經網路和深度學習在計算機視覺、語音識別和自然語言處理等許多重要問題上有著出色的表現。
神經網路本身是一般的函式逼近,這就是為什麼它們幾乎可以應用於任何從輸入到輸出空間複雜對映的機器學習問題。
然而深度神經網路更多的是關心所謂的端到端學習,內部發生什麼事情它並不關心。這在認知科學裡面叫“弱等價”,也就是說人和機器可以幹同一件事,但是它們的內部過程並不是一樣的。
或者和生物智慧類似,深度神經網路要在增加內部的認知過程中,也應該和生物系統類似。此時,站在生物神經學的參照系下,或許能賦予 AI 語言處理更精細的洞察。
經過多年研究,神經科學家發現了人類大腦中處理語言聲音的執行規則
8 月 18 日,美國加州大學舊金山分校的研究人員在《細胞》雜誌上發表論文稱,聽覺處理和語言處理是並行進行的。這與長期以來認為大腦先處理聽覺資訊,然後將其轉化為語言資訊的理論相矛盾。
最新研究表明:當含有語意的聲音傳到耳中,耳蝸將其轉換成電訊號,然後傳送到位於顳葉的聽覺皮層。
▲人腦左半球聽覺皮層的位置和分割槽示意圖
幾十年來,科學家們一直認為,聽覺皮層在處理語音時像工廠流水線一樣有先後工序:首先,初級聽覺皮層處理簡單的聲音資訊,比如聲音訊率。然後,顳上回(superior temporal gyrus,STG)提取更重要的特徵,如子音和母音,將聲音轉換為有含義的單詞。
但一直以來,這一理論缺乏直接證據的支援,因為它需要整個聽覺皮層極高時空解析度的詳細神經生理學記錄。這是一個挑戰,原因是初級聽覺皮層位於大腦額葉和顳葉的裂口深處。
美國加州大學舊金山分校神經科學家和神經外科醫生 Edward Chang 說:"所以,我們進行了這項研究,希望找到聲音等低階表徵轉化為詞彙等高階表徵的證據。"
▲Edward Chang
這項研究的開展離不開一些患者的支援。幾年時間裡,有 9 名患者參與了實驗。因為需要切除腦部腫瘤或定位引發癲癇的病灶,這些患者接受了神經外科手術。與此同時,他們同意讓醫生在手術過程中將微電極陣列放置在他們的聽覺皮層,收集神經訊號,用於分析語言功能和定位癲癇,以及研究聽覺皮層如何處理語音資訊。
“這是我們第一次可以直接從大腦表面同時覆蓋聽覺皮層的所有區域,研究聲音到字詞的轉換。”Chang 教授說。相比過去只能在有限的幾個點記錄神經活動的電訊號,無疑是巨大的進步。
接著,在實驗中,研究人員開始向參與者播放片語和短句,試圖尋找資訊從初級聽覺皮層流向顳上回的跡象。按照原來的假設,這兩個腦區應該會先後被啟用。
然而,事實並非如此。他們觀察到,播放句子時,顳上回某些區域的反應速度與初級聽覺皮層一樣快,也就是說,這兩個區域同時開始處理聲音資訊。
在另一項實驗中,研究人員用微弱的電流刺激患者的聽覺皮層。按照原來的假設,刺激初級聽覺皮層,很可能會扭曲患者對言語的感知。然而,這些患者表示,儘管刺激引起了某些聲音的幻聽,但他們仍能清楚地聽到並重復對他們播放的字詞。
相反,當研究人員用電流刺激患者的顳上回,患者報告說他們能聽到有人在講話,但分辨不出字詞。“事實上,有一名患者說,聽起來就像單詞的音節發生了互換。”Chang 教授說道。
綜合這些證據,研究小組認為,大腦聽覺皮層對聲音和語音的資訊處理是並行的,而不是傳統模型所認為的序列處理。
傳統語音處理模型過於簡化,甚至很可能是錯誤的。研究人員推測,顳上回可能獨立於初級聽覺皮層而發揮作用,而不是作為初級聽覺皮層處理的下一步。
語言處理的並行性可能會給醫生提供治療誦讀困難症等病症的新思路。患有這些疾病的兒童在識別語音方面存在困難。
"雖然這是向前邁出的重要一步,但我們還不瞭解這個平行聽覺系統。這些發現表明,聲音資訊的傳遞可能與我們想象的非常不同。這無疑帶來了更多問題。"Chang 說。
站在生物神經學的參照系下,AI 語言處理被賦予更精細的洞察
生物神經元構成一層一層的網路,一層一層進行特徵提取,這是深度學習已經模擬的,其實大腦還有一個根本不同,我們識別物體的時候不是像深度學習網路一樣由簡單到複雜的特徵提取,而是有多條通路:
我們看到一個物體的時候,第一步會快速的從皮層下通路,對物體的整體的性質進行識別,這些資訊到了高階腦區,和記憶、先驗知識等進行融合,先猜測出來是什麼東西,通過神經反饋再和深度學習模擬的那個慢速的腹側通路進行動態互動,這個過程可能會經過幾個回合,整個識別的過程都是輸入和大腦內部的先驗知識不斷的相互比較印證的過程,而這個過程在目前是深度學習沒有包含的,也是影象理解這個數學上不適定問題(ill-posed problem)的一個解決方案。
那為什麼我們好像深度學習網路用的很好,我們沒有包含動態的過程,由粗到細、由 global 到 local 的過程,也能做的挺好。或許是因為現在我們的任務太簡單了,如果只是做靜態影象的識別根本不需要這個,但是如果真的要做一個能夠與環境動態互動、很自主的機器人,這樣的計算需求就會出現,那個時候就需要動態互動的過程了。
而深度學習一般認為是黑盒子,每個人的模型得到大致相同的結果,但是也不完全一樣,那麼這裡的一致性和不一致性到底體現在哪裡。如果生物神經在語言處理方面搞的很清楚的話,實際上對深度神經網路的架構也會很有幫助。