讓機器耳濡目染：MIT提出跨模態機器學習模型

阿新 • • 發佈：2020-10-22

2019獨角獸企業重金招聘Python工程師標準>>>

時間2017-06-11 17:28:22機器之心

原文https://www.jiqizhixin.com/articles/015f1f8e-5dca-486a-961c-b4b4b76647df

不變性表示（invariant representation）是視覺、聽覺和語言模型的核心，它們是資料的抽象結果。人們一直希望在視覺、有噪音的音訊、有同義詞的自然語言中獲取觀點和大量不變性表示。具有識別能力的不變性表示可以讓機器從大量資料中學習特徵，從而獲得近似於人類的識別效果。但在機器學習領域，目前這一方面的研究進展有限。

對此，麻省理工學院（MIT）的 Yusuf Aytar 等人最近在一項研究中提出了全新的方法：研究人員通過多種關聯資訊的輸入讓機器學習了跨模態資料的通用表達方式。在文字語句「她跳入了泳池」中，同樣的概念不僅出現在視覺上，也出現在了聽覺上，如泳池的影象和水花飛濺的聲音。如果這些跨模態的表示存在關聯，那麼它們的共同表示就具有魯棒性。上文中的句子、泳池的影象和水聲應當具有相同的內在表示。

論文：See, Hear, and Read: Deep Aligned Representations

連結：https://arxiv.org/abs/1706.00932

I7NJ3aE.png!web

摘要

我們利用大量易於獲得的同步資料，讓機器學習系統學會了三種主要感官（視覺、聲音和語言）之間共有的深度描述。通過利用時長超過一年的視訊配音和百萬條配和圖片匹配的句子，我們成功訓練了一個深度卷積神經網路對不同資訊生成共同的表示。我們的實驗證明，這種表示對於一些任務是有效的，如跨模式檢索或在形態之間的傳遞分類。此外，儘管我們的神經網路只經過了圖片+文字和圖片+聲音的配對訓練，但它也在文字和聲音之間建立了聯絡——這在訓練中未曾接觸。我們的模型的視覺化效果揭示了大量自動生成，用於識別概念，並獨立於模態的隱藏單元。

VraIBvv.png!web

圖 1. 共同表示：研究人員提出了深度跨模態卷積神經網路，它可以學習三種表徵方式：視覺、聽覺和文字閱讀。在此之上，研究人員展示了輸入資訊可以啟用網路中的隱藏單元，其中被激發的概念位置獨立於模態。

Jz22mmJ.png!web

圖 2. 資料集：研究人員使用了大量未加工、無約束的資料對概念表達進行訓練。

qQJ7V3v.png!web

圖 3. 學習通用表示方法：研究人員設計了一種能夠同時接收影象、聲音和文字輸入的神經網路。該模型從模態專屬表示（灰色）中產生一種通用表示，同時適用於不同模態（藍色）。研究人員同時使用模型轉換損失和配比排名損失來訓練這個模型。模態專有層是卷積的，不同模態的共享層則是全連線的。

E7vA7zF.png!web

圖 4. 跨模式反演示例：MIT 的研究人員展示了使用深度表示，跨聲音、影象和文字三種模態的頂層反演

BVbQZrr.png!web

圖 5. 隱藏單元的視覺化：研究人員通過模型的視覺化發現了一些隱藏單元。注意：頻譜圖（紅/黃色的熱區顯示）之外，還有原始視訊和與之對應的描述聲音，後者僅用於視覺化目的。

不變性表示可以讓計算機視覺系統可以在不受約束的、現實世界環境中高效執行。在實驗中，研究人員發現了一些聯結表達方式具有更高的分類和檢索效能，可以應對未遇到過的新情況。麻省理工學院的學者們相信，對於下一代機器感知而言，跨模態的表示具有重要意義。

轉載於:https://my.oschina.net/airship/blog/919859

讓機器耳濡目染：MIT提出跨模態機器學習模型

讓機器耳濡目染：MIT提出跨模態機器學習模型

跨模態行人重識別：RGB-Infrared Cross-Modality Person Re-Identification（2017 ICCV）

多模態機器學習綜述翻譯(轉載)

《Cross-Modal & Metric Learning 跨模態檢索專題-1》學習

《論文筆記--跨模態檢索研究綜述-2018》學習筆記

打打字就能指揮演算法視訊摳圖，Transformer 掌握跨模態新技能

深入理解 Java 虛擬機器器：Java 記憶體區域透徹分析

Hadoop完整搭建過程（三）：完全分佈模式（虛擬機器）

比Keras更好用的機器學習“模型包”：0程式碼上手做模型

MySql：Navicat 連線不上虛擬機器上的mysql容器

quartus模擬32：74161構成的模7計數器

1911A：Django配置跨域並開發測試介面

跨域問題：CORS解決跨域原理

自動駕駛能否取代司機，滴滴：人可以做到的，機器不一定能

微軟宣佈全新密碼自動填充解決方案：跨平臺，跨裝置

名為機器狗 Max，騰訊正式釋出首個軟硬體全自研的多模態四足機器人

南京一公司研發出第五代阿爾法機器狗：行走速度創世界紀錄，或推家用平價版

“讓子彈飛”：我國時速 1000 公里磁懸浮高速飛車試驗線開建

視窗模態（model）的實現，讓你點不著！

國家網信辦：打擊治理跨境網路賭博，加大對區塊鏈平臺及衍生平臺應用的監測力度

讓機器耳濡目染：MIT提出跨模態機器學習模型

相關推薦