1. 程式人生 > 實用技巧 >讓機器耳濡目染:MIT提出跨模態機器學習模型

讓機器耳濡目染:MIT提出跨模態機器學習模型

2019獨角獸企業重金招聘Python工程師標準>>> hot3.png

時間2017-06-11 17:28:22機器之心

原文https://www.jiqizhixin.com/articles/015f1f8e-5dca-486a-961c-b4b4b76647df

主題資料探勘

不變性表示(invariant representation)是視覺、聽覺和語言模型的核心,它們是資料的抽象結果。人們一直希望在視覺、有噪音的音訊、有同義詞的自然語言中獲取觀點和大量不變性表示。具有識別能力的不變性表示可以讓機器從大量資料中學習特徵,從而獲得近似於人類的識別效果。但在機器學習領域,目前這一方面的研究進展有限。

對此,麻省理工學院(MIT)的 Yusuf Aytar 等人最近在一項研究中提出了全新的方法:研究人員通過多種關聯資訊的輸入讓機器學習了跨模態資料的通用表達方式。在文字語句「她跳入了泳池」中,同樣的概念不僅出現在視覺上,也出現在了聽覺上,如泳池的影象和水花飛濺的聲音。如果這些跨模態的表示存在關聯,那麼它們的共同表示就具有魯棒性。上文中的句子、泳池的影象和水聲應當具有相同的內在表示。

論文:See, Hear, and Read: Deep Aligned Representations

連結:https://arxiv.org/abs/1706.00932

I7NJ3aE.png!web

摘要

我們利用大量易於獲得的同步資料,讓機器學習系統學會了三種主要感官(視覺、聲音和語言)之間共有的深度描述。通過利用時長超過一年的視訊配音和百萬條配和圖片匹配的句子,我們成功訓練了一個深度卷積神經網路對不同資訊生成共同的表示。我們的實驗證明,這種表示對於一些任務是有效的,如跨模式檢索或在形態之間的傳遞分類。此外,儘管我們的神經網路只經過了圖片+文字和圖片+聲音的配對訓練,但它也在文字和聲音之間建立了聯絡——這在訓練中未曾接觸。我們的模型的視覺化效果揭示了大量自動生成,用於識別概念,並獨立於模態的隱藏單元。

VraIBvv.png!web

圖 1. 共同表示:研究人員提出了深度跨模態卷積神經網路,它可以學習三種表徵方式:視覺、聽覺和文字閱讀。在此之上,研究人員展示了輸入資訊可以啟用網路中的隱藏單元,其中被激發的概念位置獨立於模態。

Jz22mmJ.png!web

圖 2. 資料集:研究人員使用了大量未加工、無約束的資料對概念表達進行訓練。

qQJ7V3v.png!web

圖 3. 學習通用表示方法:研究人員設計了一種能夠同時接收影象、聲音和文字輸入的神經網路。該模型從模態專屬表示(灰色)中產生一種通用表示,同時適用於不同模態(藍色)。研究人員同時使用模型轉換損失和配比排名損失來訓練這個模型。模態專有層是卷積的,不同模態的共享層則是全連線的。

E7vA7zF.png!web

圖 4. 跨模式反演示例:MIT 的研究人員展示了使用深度表示,跨聲音、影象和文字三種模態的頂層反演

BVbQZrr.png!web

圖 5. 隱藏單元的視覺化:研究人員通過模型的視覺化發現了一些隱藏單元。注意:頻譜圖(紅/黃色的熱區顯示)之外,還有原始視訊和與之對應的描述聲音,後者僅用於視覺化目的。

不變性表示可以讓計算機視覺系統可以在不受約束的、現實世界環境中高效執行。在實驗中,研究人員發現了一些聯結表達方式具有更高的分類和檢索效能,可以應對未遇到過的新情況。麻省理工學院的學者們相信,對於下一代機器感知而言,跨模態的表示具有重要意義。

轉載於:https://my.oschina.net/airship/blog/919859