1. 程式人生 > 實用技巧 >多模態機器學習綜述翻譯(轉載)

多模態機器學習綜述翻譯(轉載)

文章:《Multimodal Machine Learning: A Survey and Taxonomy》

多模態機器學習綜述

【摘要】我們對世界的體驗是多模式的 - 我們看到物體,聽到聲音,感覺到紋理,聞到氣味和嚐到味道。模態是指某種事物發生或經歷的方式,並且當研究問題包括多種這樣的形式時,研究問題被描述為多模態。為了使人工智慧在理解我們周圍的世界方面取得進展,它需要能夠一起解釋這種多模訊號。多模式機器學習旨在構建可以處理和關聯來自多種模態資訊的模型。這是一個充滿活力的多學科領域,具有越來越重要的意義和非凡的潛力。本文不是關注特定的多模態應用,而是研究多模態機器學習本身的最新進展。我們超越了典型的早期和晚期融合分類,並確定了多模式機器學習所面臨的更廣泛的挑戰,即:表示,翻譯,對齊,融合和共同學習。這種新的分類法將使研究人員能夠更好地瞭解該領域的狀況,並確定未來研究的方向。

關鍵字:多模態 機器學習 介紹 綜述

  1. 介紹

1、我們周圍的世界有多種模式-我們看到物體,聽到聲音,感覺質地,聞到氣味,等等。一般來說,模態是指某物發生或經歷的方式。大多數人把模態這個詞與代表我們主要溝通和感知渠道的感覺方式聯絡起來,如視覺和觸覺。因此,當一個研究問題或資料集包含多個這樣的模式時,它就具有多模態的特徵。在本文中,我們主要關注但不限定三種模式:既可以寫也可以說的自然語言;通常用影象或視訊表示的視覺訊號;編碼聲音和副詞資訊的聲音訊號,如韻律、聲樂等。

2、為了讓人工智慧在瞭解我們周圍的世界方面取得進展,它需要能夠解釋和推理多模態資訊。多模態機器學習旨在建立能夠處理和關聯來自多個模態的資訊的模型。從早期的視聽語音識別研究到最近對語言和視覺模型的興趣激增,多模態機器學習是一個充滿活力的多學科領域,並且重要性日益提高,潛力巨大。

3、由於資料的異構性,多模態機器學習的研究領域給計算研究者帶來了一些獨特的挑戰。從多模態資訊源中學習提供了捕獲模態之間的對應關係並獲得對自然現象深入理解的可能性。本文對多模態機器學習的五個核心技術挑戰(及其相關子挑戰)進行了識別和探討。

它們是多模態學習的中心,需要處理才能促進該領域發展。我們的綜述超越了典型的早期和晚期融合分割,包括以下五個挑戰:

  1. 表示:第一個基本挑戰是學習如何以一種利用多種模態的互補性和冗餘性的方式表示和彙總多模式資料。多模資料的異構性使得構造這樣的表示方法具有挑戰性。例如,語言通常是象徵性的,而音訊和視訊形式將被表示為訊號。
  2. 翻譯:第二個挑戰是如何將資料從一種模式轉換(對映)到另一種模式。不僅異構資料,而且模式之間的關係往往是開放的或主觀的。例如,有許多正確的方法來描述一個影象,一個完美的對映可能不存在。
  3. 對齊:第三個挑戰是確定來自兩種或兩種以上不同模式的(子)元素之間的直接關係。例如,我們可能希望將菜譜中的步驟與顯示正在製作的菜餚的視訊對齊。為了解決這一挑戰,我們需要度量不同模式之間的相似性,並處理可能的長期依賴性和模糊性。
  4. 融合:第四個挑戰是連線來自兩個或多個模式的資訊來執行預測。例如,在視聽語音識別中,將脣動的視覺描述與語音訊號融合,預測語音單詞。來自不同模式的資訊可能具有不同的預測能力和噪聲拓撲結構,其中至少有一種模式可能丟失資料。
  5. 共同學習:第五個挑戰是在模態、它們的表示和它們的預測模型之間傳遞知識。這一點可以用協同訓練、概念基礎和零樣本學習的演算法來舉例說明。協同學習探索了從一個模態中學習知識如何幫助在不同模態中訓練的計算模型。當其中一種模式的資源有限(例如,註釋資料)時,這一挑戰尤其重要。

針對這五個挑戰中的每一個,我們定義了分類和子類,以幫助構建多模態機器學習這一新興研究領域的最新工作。我們首先討論多模態機器學習的主要應用(第2節),然後討論多模態機器學習面臨的五個核心技術挑戰的最新發展:表示(第3節)、翻譯(第4節)、對齊(第5節)、融合(第6節)和共同學習(第7節)。 最後,我們將在第8節進行討論。

表一:多模態機器學習的應用概述。對於每個應用領域,我們都確定了為了解決它而需要解決的核心技術挑戰

2應用:歷史視角

1、多模式機器學習可以實現廣泛的應用:從視聽語音識別到影象描述。在本節中,我們簡要介紹了多模應用的歷史,從視聽語音識別的開始到最近對語言和視覺應用的新興趣。

2、多模態研究最早的例子之一是視聽語音識別(audio-visual speech recognition avsr)[243]。它的靈感來自麥格克效應(McGurk effect)[138]——在語音感知過程中聽覺和視覺之間的相互作用。當受試者在觀看一個人說/ga-ga/時聽到音節/ba-ba/,他們感覺到第三個聲音是/da-da/。在給自願者放映的一部影片中,一個音節“ga”在配音時發作了“ba”,而自願者稱聽到的音節是卻是“da”。這樣一來,視聽資訊聯手創造出了第三種全新的聲音,這個過程現在被叫做“麥格克效應”。 這是大腦對於來自眼睛和耳朵所提供的矛盾資訊的努力猜測,這個理論也證明眼睛(視覺資訊)對於大腦意識與知覺的影響比其他感覺器官所提供的資訊更大。另一項研究發現,視覺資訊的不一致可以改變對於口語發音的感知,這表明了麥格克效應可能在人們生活中許多外在感知上產生影響。

這些結果激發了許多來自言語社群的研究者們用視覺資訊來擴充套件他們的研究方法。考慮到隱藏馬爾可夫模型(hidden Markov model, HMMs)在當時的語音社群中的突出地位[95],AVSR的許多早期模型基於各種HMM擴充套件[24]、[25]就不足為奇了。雖然目前對AVSR的研究並不常見,但它已經引起了深度學習界的新興趣[151]。

3、雖然AVSR的原始視覺是為了提高語音識別效能(例如,字錯誤率),但實驗結果表明,視覺資訊的主要優點提現在當語音訊號有噪聲(即,低信噪比)時[75]、[151]、[243]。換言之,模式之間的相互作用是增補的而不是補充(疊加式而非互補式)。兩種方法都獲得了相同的資訊,提高了多模態模型的魯棒性,但沒有改善無噪聲場景下的語音識別效能。

4、第二種重要的多模態應用來自多媒體內容索引和檢索領域[11],[188]。隨著個人電腦和網際網路的發展,數字化多媒體內容的數量急劇增加。[2] 雖然早期索引和搜尋這些多媒體視訊的方法是基於關鍵字的[188],但在嘗試直接搜尋視覺和多模態內容時出現了新的研究問題。這導致了多媒體內容分析領域的新研究課題,如自動鏡頭邊界檢測[123]和視訊總結[53]。這些研究專案得到了國家標準與技術研究所(National Institute of Standards and Technologies)的Trecvid倡議的支援,該倡議引入了許多高質量資料集,包括2011年開始的多媒體事件檢測(multimedia event detection MED)任務[1]。

第三類應用是在本世紀初圍繞多模態互動的新興領域建立的,目的是瞭解人類在社會互動過程中的多模態行為。AMI會議語料庫是該領域最早收集的具有里程碑意義的資料集之一,該語料庫包含100多個小時的會議視訊記錄,全部完整轉錄並標註了[33]。另一個重要的資料集是SEMAINE語料庫,它可以研究說話者和聽者之間的人際動態[139]。該資料集是2011年組織的第一次視聽情感挑戰(AVEC)的基礎[179]。由於自動人臉檢測、面部標誌物檢測和麵部表情識別[46]技術的強大進步,情緒識別和情感計算領域在2010年代初蓬勃發展。AVEC的挑戰在之後每年都會繼續,隨後的例項化包括醫療應用程式,如抑鬱和焦慮的自動評估[208]。D 'Mello 等[50]對多模態情感識別的最新進展進行了綜述。他們的元分析顯示,最近關於多模態情感識別的大部分研究表明,當使用多個模態時,多模態情感識別效果有所改善,但這種改善在識別自然發生的情感時有所減弱。

最近,出現了一種強調語言和視覺的多模態應用新類別:媒體描述。最具代表性的應用程式之一是影象描述,其中的任務是生成輸入影象的文字描述[83]。這是由這種系統幫助視障人士完成日常任務的能力。媒體描述面臨的主要挑戰是評價:如何評價預測描述的質量。視覺問答(visual question-answering, VQA)的任務最近提出,以解決一些評價挑戰的[9],其中的目標是回答有關影象的特定問題。

為了將上述的一些應用帶到現實世界中,我們需要解決多模態機器學習所面臨的一些技術挑戰。我們在表1中總結了上述應用領域的相關技術挑戰。最重要的挑戰之一是多模態表示,這是我們下一節的重點。

3、多模態表示

以計算模型可以使用的格式表示原始資料一直是機器學習中的一大挑戰。根據Bengio等人的工作[18],我們可以互換使用術語“特徵”和“表示”,每一個都指一個實體的向量或張量表示,無論是影象、音訊樣本、單個單詞或句子。多模表示是使用來自多個這樣的實體的資訊來表示資料的一種表示。表示多種形式存在許多困難:如何組合來自不同來源的資料;如何處理不同級別的噪聲;以及如何處理丟失的資料。以有意義的方式表示資料的能力對於多模式問題至關重要,並且是任何模型的主幹。

良好的表示對於機器學習模型的效能非常重要,這一點在語音識別和視覺物件分類系統的效能最近的飛躍中得到了證明。Bengio等人的[18]識別了許多良好表示的屬性:平滑性、時間和空間相干性、稀疏性和自然聚類等。Srivastava和Salakhutdinov[198]確定了多模態表示的其他理想屬性:表示空間中的相似性應該反映出相應概念的相似性,即使在沒有一些模態的情況下也應該很容易得到表示,最後,在給定觀察到的模態的情況下,應該有可能補全缺失的模態。

單模態表示的發展已被廣泛研究[5],[18],[122]。在過去的十年中,已經出現了從手工設計的特定應用到資料驅動的轉變。例如,本世紀初最著名的影象描述符之一,尺度不變特徵變換(SIFT)是人工設計的[127],但目前大部分的視覺描述都是通過神經網路(CNN)等神經結構從資料中學習的[109]。類似地,在音訊領域,諸如梅爾頻率倒譜系數(MFCC)之類的聲學特徵已被語音識別中的資料驅動的深度神經網路[79]和用於語言分析的遞迴神經網路所取代[207]。在自然語言處理中,文字特徵最初依賴於計算文件中的單詞出現次數,但已被利用單詞上下文的資料驅動的單詞嵌入(word embeddings)所取代[141]。雖然在單模態表示方面有大量的工作,但直到最近,大多數多模態表示都涉及單模態的[50]的簡單連線,但這種情況正在迅速變化。

為了幫助理解工作的廣度,我們提出了兩類多模態表示:聯合和協調。聯合表示將單模態訊號組合到同一個表示空間中,而協調錶示單獨處理單模態訊號,但對其施加一定的相似性約束,使其達到我們所說的協調空間。圖1展示了不同的多模態表示型別。在數學上,聯合表示為:

xm=f(x1...xn) (1)

其中,多模態表示xm使用依賴於單模態表示x1…xn的函式f(例如,深度神經網路、受限玻爾茲曼機或遞迴神經網路)計算.

協調錶示如下:f(x1) ∼ g(x2) (2)

其中每個模態都有對應的投影函式(f和g),將其對映到一個協調的多模態空間。而投影到每個形態的多通道空間是獨立的,但它們之間產生的結果空間是協調的(表示為∼)。這種協調的例子包括最小化餘弦距離[61],最大化相關[7],以及在結果空間之間強制執行偏序[212]。



圖一:聯合表示和協調錶示的結構。聯合表示使將關節表示投影到同一空間,作為輸入的模式。協調錶示存在於各自的空間中,但通過相似性(例如歐幾里得距離)或結構約束(例如部分順序)進行協調。

3.1 聯合表示

我們從將單模表示投影到多模空間(方程式1)的聯合表示開始討論。聯合表示法主要(但不是唯一)用於在訓練和推理步驟中同時存在多模態資料的任務。聯合表示的最簡單示例是單個模態特徵的串聯(也稱為早期融合[50])。在本節中,我們討論了建立聯合表示的更先進的方法,首先是神經網路,然後是圖形模型迴圈神經網路(代表性工作見表2)。

神經網路已成為一種非常流行的單模態資料表示方法。它們用於表示視覺、聲學和文字資料,並且越來越多地用於多模態領域[151]、[156]和[217]。在本節中,我們將描述如何使用神經網路來構建聯合多模態表示,如何訓練它們,以及它們提供了哪些優勢。

一般來說,神經網路由連續的內積構建塊和非線性啟用函式組成。為了使用神經網路來表示資料,首先要訓練它執行特定的任務(例如識別影象中的物件)。由於深層神經網路的多層性,假設每一層後續的神經網路以更抽象的方式來表示資料[18],因此通常使用最後一層或倒數第二層神經網路作為一種資料表示形式。為了使用神經網路構建一個多模態表示,每個模態都從幾個單獨的神經層開始,然後是一個隱藏層,該層將模態投射到一個共同空間[9],[145],[156],[227]。

表二:多模表示技術綜述。我們確定了三個聯合表示的子型別(第3.1節)和兩個協調錶示的子型別(第3.2節)。對於模態+表示組合模態



然後,聯合多模態表示通過多個隱含層本身或直接用於預測。這種模型可以進行端到端訓練——學習如何表示資料和執行特定任務。在神經網路中,多模態表示學習與多模態融合有著密切的關係。

由於神經網路需要大量帶標籤的訓練資料,因此通常使用自動編碼器對無監督資料進行預訓練[80]。Ngiam等人提出的模型[151]將使用自動編碼器的思想擴充套件到多模域。他們使用堆疊式去噪自動編碼器分別表示每個模態,然後使用另一個自動編碼器層將它們融合成多模態表示。同樣,Silberer和Lapata[184]提議使用多模自動編碼器來完成語義概念基礎的任務(見第7.2節)。除了使用重構損失訓練表示,它們還將一個術語引入到使用表示來預測物件標籤的損失函式中。由於使用AutoEncoder構造的表示是通用的,不一定是針對特定任務優化的,因此通常對手頭特定任務的結果表示進行微調[217]。

基於神經網路的聯合表示的主要優勢在於其通常具有優越的效能,並且能夠在無監督的情況下對錶示進行預訓練。然而,效能的提高取決於可用於訓練的資料量。缺點之一是模型不能自然地處理丟失的資料——儘管有一些方法可以緩解這個問題[151],[217]。最後,深度網路往往很難訓練[69],但該領域在更好的訓練技術方面正在取得進展[196]。

概率圖形模型是另一種通過使用潛在隨機變數來構造表示的常用方法[18]。在本節中,我們將描述如何使用概率圖模型來表示單模和多模資料。基於圖形模型的表示最流行的方法是受限玻爾茲曼機:deep Boltzmann machines (DBM)[176],將restricted Boltzmann machines (RBM)[81]堆疊起來作為構建塊。與神經網路類似,DBM的每個連續層都期望在更高的抽象級別上表示資料。DBMs的吸引力來自於他們不需要監督資料進行訓練的事實[176]。由於它們是圖形模型,因此資料的表示是概率的,但是可以將它們轉換為確定性神經網路——但這就失去了模型的生成方面[176]。

Srivastava和Salakhutdinov[197]的工作引入了多模態深度信念網路作為多模態表徵。Kim等[104]對每一種模態都使用了一個深度信念網路,然後將其組合成聯合表徵進行視聽情感識別。Huang and KingsburyAVSR[86]採用了類似的模型,Wu等[225]基於音訊和骨骼關節的手勢識別。

Srivastava和Salakhutdinov[198]將多模態深度信念網路擴充套件到了多模態DBMs中。多模態DBMs能夠從多種模態中學習聯合表示,方法是使用隱藏單元的二進位制層合併兩個或多個無向圖。由於模型的無向性,它們允許每個模態的低階表示在聯合訓練後相互影響。Ouyang等[156]探討了多模態DBMs在多檢視資料人體姿態估計中的應用。他們證明,在單模態資料經過非線性轉換後的後期對資料進行整合對模型是有益的。同樣,Suk等[199]利用多模態DBM表示法從正電子發射斷層掃描和磁共振成像資料中對阿爾茨海默病進行分類。使用多模態DBMs學習多模態表示的最大優點之一是其生成特性,這允許以一種簡單的方式處理丟失的資料——即使整個模態丟失,模型也有一種自然的處理方法。它還可以用於在另一種模態存在的情況下生成一種模態的樣本,或者從表示中生成兩種模態的樣本。與自動編碼器類似,可以以非監督的方式對錶示進行訓練,從而支援使用未標記的資料。DBMs的主要缺點是訓練困難,計算成本高,需要使用近似變分訓練方法[198]。

順序表示。到目前為止,我們已經討論了可以表示固定長度資料的模型,但是,我們通常需要表示不同長度的序列,例如句子、視訊或音訊流。在本節中,我們將描述可用於表示此類序列的模型。遞迴神經網路(RNNs)及其變體,如長-短時記憶(LSTMs)網路[82],由於在不同任務的[12]序列建模方面的成功,近年來受到了廣泛的歡迎[213]。到目前為止,RNNs主要用於表示單模態的單詞、音訊或影象序列,在語言領域取得了很大的成功。與傳統神經網路相似,RNN的隱藏狀態可以看作是資料的一種表示,也就是說,RNN在時間步t處的隱藏狀態可以看作是該時間步之前序列的總結。這在RNN編碼器框架中尤為明顯,編碼器的任務是以解碼器可以重構的方式來表示處於RNN隱藏狀態的序列[12]。RNN表示的使用並不侷限於單模態域。使用rns構造多模態表示的早期使用來自Cosi等人在AVSR上的工作。它們還用於表示影響識別的視聽資料[37]、[152]和表示多檢視資料,例如用於人類行為分析的不同視覺線索[166]。

3.2協同表示

聯合多模表示的一種替代方法是協同表示。我們不是將模態一起投影到一個聯合空間中,而是為每個模態學習單獨的表示,但是通過一個約束來協調它們。我們從強調錶示之間的相似性的協調錶示開始討論,接著討論在結果空間上加強結構的協調錶示(表2中可以看到不同協調錶示的代表性作品)。相似模型最小化了協調空間中模態之間的距離。例如,這種模型鼓勵“狗”和“狗”兩個詞的表示,它們之間的距離小於“狗”和“汽車”兩個詞之間的距離[61]。最早的例子之一就是韋斯頓等人的研究。在WSABIE(通過影象嵌入的網路比例註釋)模型中,為影象及其註釋構建了一個協調的空間。WSABIE從影象和文字特徵構造了一個簡單的線性對映,這樣相應的註釋和影象表示在它們之間會比不相關的註釋和影象表示有更高的內積(更小的餘弦距離)。

近年來,神經網路由於具有學習表示的能力,已成為一種常用的構造協調錶示的方法。它們的優勢在於能夠以端到端的方式共同學習協調的表示。這種協調錶示的一個例子是設計——深度視覺語義嵌入[61]。設計使用了類似於WSABIE的內積和排序損失函式,但使用了更復雜的影象和單詞嵌入。Kiros等[105]利用LSTM模型和兩兩排序損失來協調特徵空間,將其擴充套件到句子和影象的協調錶示。Socher等人[191]處理了相同的任務,但將語言模型擴充套件到依賴樹RNN以合併組合語義。Pan等人也提出了類似的模型。[159],但使用視訊而不是影象。Xu等人[231]還使用主題、動詞、賓語組合語言模型和深層視訊模型構建了視訊和句子之間的協調空間。然後將該表示用於跨模式檢索和視訊描述任務。

雖然上面的模型強制表示之間的相似性,但結構化的協調空間模型超越了這一點,並且在模態表示之間強制執行額外的約束。強制的結構型別通常基於應用程式,對於雜湊、跨模態檢索和影象標題有不同的約束。結構化協調空間通常用於跨模式雜湊-將高維資料壓縮為緊湊的二進位制程式碼,並對類似物件使用相似的二進位制程式碼[218]。跨模式雜湊的思想是為跨模式檢索建立這樣的程式碼[27]、[93]、[113]。雜湊對產生的多模態空間施加一定的約束: 1)它必須是一個n維漢明空間-一個二進位制表示,位數可控;2)來自不同模態的同一物件必須具有相似的雜湊碼;3)空間必須保持相似性。學習如何將資料表示為雜湊函式,試圖實現這三個要求[27][113]。例如,Jiang和Li[92]提出了一種利用端到端可訓練的深度學習技術來學習句子描述和相應影象之間這種常見的二進位制空間的方法。Cao等人對該方法進行了擴充套件,採用了更復雜的LSTM語句表示,引入了離群點不敏感的逐位邊緣損失和基於相關性反饋的語義相似約束。同樣,Wang等人[219]構建了一個協調的空間,其中具有相似含義的影象(和句子)彼此更接近。

結構化協調錶示的另一個例子來自影象和語言的順序嵌入[212],[249]。Vendrov等[212]提出的模型強制執行了一個不對稱的不相似度量,實現了多模態空間中的偏序概念。其思想是捕獲語言和影象表示的部分順序——在空間上強制執行層次結構;例如“遛狗的女人”的形象→文字“遛狗的女人”→文字“女人走路”。 Young等人[238]也提出了一個使用符號圖的類似模型,其中符號圖用於誘導部分排序。最後,Zhang等人提出瞭如何利用文字和影象的結構化表示以一種無監督的方式建立概念分類[249]。

結構協調空間的一個特殊情況是基於正則相關分析(CCA)的情況[84]。CCA計算一個線性投影,該投影最大化了兩個隨機變數(在我們的例子中是模態)之間的相關性,並強制新空間的正交性。CCA模型被廣泛用於跨模態檢索[76],[106],[169]和視聽訊號分析[177],[187]。對CCA的擴充套件試圖構造一個最大相關非線性投影[7][116]。核正則相關分析(Kernel canonical correlation analysis, KCCA)[116]使用複製核希爾伯特空間進行投影。但是,由於該方法是非引數的,因此它與訓練集的大小之間的伸縮性很差,並且與非常大的實際資料集之間存在問題。引入了深正則相關分析(DCCA)[7]作為KCCA的替代方法,解決了可擴充套件性問題,並給出了更好的相關表示空間。類似的通訊自動編碼器[58]和深度通訊RBMS[57]也被提議用於跨模式檢索。

CCA、KCCA和DCCA是無監督的技術,只優化表示上的相關性,因此主要捕獲跨模式共享的內容。深層規範相關的自動編碼器[220]還包括一個基於自動編碼器的資料重建術語。這促使表示也能捕獲模態特定的資訊。語義相關最大化方法[248]也鼓勵語義相關性,同時保留相關最大化和由此產生的空間的正交性-這導致了CCA和跨模式雜湊技術的結合。

3.3討論

在本節中,我們確定了兩種主要的多模態表示形式——聯合和協調。聯合表示將多模態資料投射到一個公共空間中,最適合在推理過程中出現所有模態的情況。它們被廣泛用於AVSR、情感和多模手勢識別。另一方面,協調錶示法將每個模態投影到一個單獨但協調的空間中,使其適用於測試時只有一個模態的應用,例如:多模態檢索和翻譯(第4節)、接地(第7.2節)和零鏡頭學習(第7.2節)。最後,雖然聯合表示用於構建兩種以上模態的表示,但到目前為止,協調空間主要限於兩種模態。

表3:多模態翻譯研究的分類。對於每個類和子類,我們都包含了帶有引用的示例任務。我們的分類還包括翻譯的方向性:單向(⇒)和雙向(⇔)。



4翻譯(以下部分翻譯的較好)

多模機器學習的很大一部分涉及從一種形式到另一種形式的翻譯(對映)。給定一個模態中的實體,任務是用不同的模態生成相同的實體。例如,給定一個影象,我們可能希望生成一個描述它的句子,或者給定一個文字描述,生成一個匹配它的影象。多模態翻譯是一個長期研究的問題,在語音合成[88]、視覺語音生成[136]、視訊描述[107]、跨模態檢索[169]等領域都有早期的工作。

近年來,由於計算機視覺和自然語言處理(NLP)社群[19]的共同努力,以及大型多模態資料集[38]最近的可用性,多模態翻譯重新引起了人們的興趣[205]。一個特別受歡迎的問題是視覺場景描述,也稱為影象[214]和視訊字幕[213],它是許多計算機視覺和NLP問題的一個很好的測試平臺。要解決這一問題,我們不僅要充分理解視覺場景,識別其突出的部分,而且要在語法上正確、全面而簡潔的描述它的句子。雖然多模態翻譯的方法非常廣泛,而且通常是模態特有的,但它們有許多共同的因素。我們將它們分為兩類——基於例項的和生成的。基於例項的模型在模式之間轉換時使用字典。

另一方面,生成模型構建了一個能夠產生翻譯的模型。這種區別類似於非引數和引數機器學習方法之間的區別,如圖2所示,表3總結了代表性示例。

生成模型可能更具挑戰性,因為它們需要生成訊號或符號序列(例如句子)的能力。這對於任何形式來說都是困難的——視覺的、聽覺的或口頭的,尤其是當需要生成時間上和結構上一致的序列時。這導致了許多早期的多模態翻譯系統依賴於基於例項的翻譯。但是,隨著能夠生成影象[171]、[210]、聲音[157]、[209]和文字[12]的深度學習模型的出現,這種情況一直在發生變化。



圖2:基於例項和生成式多模態翻譯概述。前者從字典中檢索最佳翻譯,而後者首先在字典上訓練翻譯模型,然後使用該模型進行翻譯。

4.1基於例項

基於例項的演算法受到訓練資料字典的限制(見圖2a)。我們確定了這類演算法的兩種型別:基於檢索的演算法和基於組合的演算法。基於檢索的模型直接使用檢索到的轉換,而不需要修改它,而基於組合的模型依賴於更復雜的規則來基於大量檢索到的例項建立轉換。

基於檢索的模型可以說是多模態翻譯的最簡單形式。它們依賴於在字典中找到最接近的樣本,並將其用作翻譯結果。檢索可以在單模態空間或中間語義空間進行。

給定要翻譯的源模態例項,單模態檢索在字典中查詢源空間中最接近的例項——例如影象的視覺特徵空間。這種方法已被用於視覺語音合成,檢索最匹配的音素[26]的視覺示例。它們也被用於連線文字到語音系統[88]。最近,Ordonez等[155]利用單模態檢索,利用全域性影象特徵檢索標題候選,生成影象描述[155]。Yagcioglu等[232]利用一種基於cnn的影象表示方法,利用自適應鄰域選擇檢索視覺上相似的影象。Devlin等人在[49]中證明了一個簡單的k近鄰檢索方法與更復雜的生成方法相比,具有一致標題選擇的k近鄰檢索方法能夠獲得具有競爭力的翻譯結果。這種單模態檢索方法的優點是,它們只需要表示我們所使用的單一模態進行檢索。然而,它們通常需要額外的處理步驟,如重新排列檢索到的譯文[135]、[155]、[232]。這表明這種方法的一個主要問題——單模態空間的相似性並不總是意味著好的翻譯。另一種方法是在檢索過程中使用中間語義空間進行相似性比較。手工語義空間的一個早期示例是Farhadi等人使用的。它們將句子和影象對映到一個空間,這個空間包含了物件、動作、場景和相關檢索,然後在該空間中執行影象的標題。Socher等[191]學習了句子的協調錶示和CNN視覺特徵(關於協調空間的描述,請參見3.2節),這與手工製作表示不同。他們使用該模型既可以將文字轉換為影象,也可以將影象轉換為文字。類似地,Xu等[231]使用視訊及其描述的協調空間進行跨模態檢索。Jiang和Li[93]以及Cao等人[[32]]使用跨模態雜湊(cross-modal hashing)來實現影象到句子和句子之間的多模態轉換,Hodosh等人[83]使用多模態KCCA空間進行影象entence檢索。Karpathy等人[99]提出了一種多模態相似度度量方法,可以在內部將影象片段(視覺物件)與句子片段對齊,而不是在公共空間中對影象和句子進行全域性對齊(依賴關係樹)。語義空間中的檢索方法往往比單模態的檢索方法表現得更好,因為它們是在一個更有意義的空間中檢索示例,該空間反映了兩種模式,而且通常是為檢索而優化的。此外,它們允許雙向翻譯,這在單模態方法中不是很直觀。然而,它們需要手工構建或學習這樣的語義空間,這通常依賴於大型訓練字典(成對樣本的資料集)的存在。

基於組合的模型進一步採用了基於檢索的方法。它們不只是從字典中檢索示例,而是以一種有意義的方式將它們組合起來,以構建更好的翻譯。基於組合的媒體描述方法的出發點是影象的句子描述具有共性和簡單性可以利用的結構。組合規則通常是手工制定的或基於啟發式的。Kuznetsova等[114]首先檢索描述視覺上相似的影象的短語,然後將它們組合起來,使用整數線性規劃和一些手工規則生成查詢影象的新描述。Gupta等[74]首先找到k個與源影象最相似的影象,然後使用從其標題中提取的短語生成一個目標句子。Lebret等[119]使用基於cnn的影象表示來推斷描述它的短語。然後使用三元模型將預測的短語組合起來。基於示例的翻譯方法面臨的一個大問題是,模型是整個詞典——使得模型變大,推理變慢(不過,諸如雜湊之類的優化可以緩解這個問題)。基於例項的翻譯面臨的另一個問題是,除非任務簡單或字典很大,否則期望與源示例相關的完整和準確的翻譯總是存在於字典中是不現實的。這部分由能夠構建更復雜結構的組合模型來解決。然而,它們只能在一個方向上執行翻譯,而基於語義空間檢索的模型可以同時執行這兩種方式。

4.2生成方法

在給定單模源例項的情況下,多模翻譯的生成方法構造了能夠執行多模翻譯的模型。這是一個具有挑戰性的問題,因為它需要同時理解源模態和生成目標序列或訊號的能力。正如下面一節所討論的,由於可能的正確答案空間很大,這也使得這些方法更難評估。

在這項調查中,我們關注三種形式的產生:語言、視覺和聲音。語言生成已經探索了很長一段時間[170],最近很多人關注影象和視訊描述等任務[19]。語音和聲音的產生也經歷了許多歷史[88]和現代方法[157],[209]。照片般逼真的影象生成一直沒有被探索過,並且仍然處於早期階段[132],[171],但是,在生成抽象場景[253]、計算機圖形[45]和說話的頭部[6]方面,已經進行了多次嘗試。

我們確定了三大類生成模型:基於語法的、編碼器-解碼器和連續生成模型。基於語法的模型通過使用語法限制目標域來簡化任務,例如,通過基於<subject,object,verb>模板生成受限制的句子。編碼器-解碼器模型首先將源模態編碼為潛在的表示形式,然後由解碼器使用該表示形式生成目標模態。連續生成模型是在源模態輸入流的基礎上連續生成目標模態適用於時間序列之間的轉換,如文字到語音。

基於語法的模型依賴於預定義的語法來生成特定的模態。它們首先從源模式檢測高階概念,例如影象中的物件和視訊中的動作。然後將這些檢測與基於預定義語法的生成過程結合在一起,生成目標模態。Kojima等[107]提出了一種利用檢測到的人的頭和手的位置以及基於規則的自然語言生成來描述視訊中人類行為的系統,該系統融合了概念和行為的層次結構。Barbu et al.[14]提出了一種視訊描述模型,該模型可以生成這種形式的句子:who did what to whom and where and how they did it。該系統基於手工製作的物件和事件分類器,並使用了適合任務的受限語法。Guadarrama等人[73]預測<subject,verb,object>三元組,使用語義層次描述視訊,在不確定的情況下使用更通用的詞。與語言模型一起,他們的方法允許翻譯字典中看不到的動詞和名詞。

為了描述影象,Yao等[235]提出使用基於and或圖形的模型,結合領域特定的詞彙化語法規則、有針對性的視覺表示方案和層次知識本體。Li等[121]首先檢測物件、視覺屬性和物件之間的空間關係。然後在視覺提取的短語上使用n-gram語言模型生成<subject、preposition、object>樣式的語句。Mitchell等人[142]使用了更復雜的基於樹的語言模型生成語法樹而不是填充模板,從而導致更多樣化的描述。

大多數方法都將整個影象聯合起來表示為一袋視覺物件,而不捕獲它們的空間和語義關係。為了解決這個問題,Elliott等人[51]建議顯式建模物件的鄰近關係,以生成影象描述。

一些基於語法的方法依賴於圖形模型來生成目標模態。一個例子是BabyTalk[112],它給出了一個影象生成<object, preposition, object>三元組,和一個條件隨機欄位一起使用來構造句子。Yang等[233]利用從影象中提取的視覺特徵預測一組<名、動詞、場景、介詞>候選詞,並用統計語言模型和隱馬爾可夫模型風格推理將其組合成一個句子。Thomason等[204]也提出了類似的方法,利用因子圖模型對形式<subject、verb、object、place>進行視訊描述。因子模型利用語言統計資訊處理噪聲的視覺表示。Zitnick等[253]則提出利用條件隨機域從句子中提取的語言三聯來生成抽象的視覺場景。

基於語法的方法的一個優點是,當它們使用預定義模板和受限制的語法時,它們更有可能生成語法上(對於語言)或邏輯上正確的目標例項。然而,這限制了他們產生公式化,而不是創造性翻譯。此外,基於語法的方法依賴於複雜的管道進行概念檢測,每個概念都需要單獨的模型和單獨的訓練資料集。

基於端到端訓練神經網路的編碼器-解碼器模型是目前最流行的多模態翻譯技術之一。該模型的主要思想是首先將源模態編碼為矢量表示,然後使用解碼器模組生成目標模態,所有這些都在一個單通道管道中。雖然該模型首次用於機器翻譯[97],但已成功用於影象字幕[134]、[214]和視訊描述[174]、[213]。迄今為止,編碼器模型主要用於生成文字,但也可用於生成影象[132]、[171]和語音連續生成[157]、[209]。

編碼器-解碼器模型的第一步是對源物件進行編碼,這是以特定的方式完成的。常用的聲學訊號編碼模型包括RNNs[35]和DBNs[79]。對單詞和句子進行編碼的大部分工作使用分佈語義[141]和RNNs[12]的變體。影象通常使用卷積神經網路(CNN)進行編碼[109],[185]。雖然學習CNN表示是常見的影象編碼,但這不是視訊的情況,手工製作的功能仍然普遍使用[174],[204]。雖然可以使用單模態表示對源模態進行編碼,但已經證明使用協調空間(參見3.2節)可以獲得更好的結果[105]、[159]和[231]。

解碼通常由RNN或LSTM執行,使用編碼的表示作為初始隱藏狀態[54],[132],[214],[215]。對傳統的LSTM模型提出了一些擴充套件,以幫助完成翻譯任務。可以使用導向量將影象輸入中的解緊密耦合[91]。Venugopalan等[213]證明,在將解碼器LSTM微調為視訊描述之前,對其進行影象字幕預處理是有益的。Rohrbach等[174]探討了用於視訊描述任務的各種LSTM架構(單層、多層、分解)和一些訓練和正則化技術的使用。

使用RNN進行翻譯生成所面臨的一個問題是,模型必須從影象、句子或視訊的單個矢量表示生成描述。在生成長序列時,這一點尤其困難,因為這些模型往往會忘記初始輸入。神經注意模型(見5.2節)部分解決了這一問題,它允許網路在生成過程中聚焦於影象[230]、句子[12]或視訊[236]的某些部分。

基於生成注意的神經網路也被用於從句子中生成影象的任務[132],儘管其結果仍遠未達到照片真實感,但顯示出了很大的前景。近年來,利用生成對抗性網路生成影象的研究取得了很大進展[71],該網路已被用於替代RNNs從文字生成影象[171]。

雖然基於神經網路的編碼器-解碼器系統已經取得了很大的成功,但仍然面臨許多問題。Devlin等人[49]認為,網路可能是在記憶訓練資料,而不是學習如何理解和生成視覺場景。

這是基於K-最近鄰模型與基於生成的模型的效能非常相似的觀察結果。此外,此類模型通常需要大量資料進行培訓。連續生成模型用於序列轉換,並以線上方式在每個時間步上生成輸出。這些模型在將序列轉換為序列(如文字到語音、語音到文字和視訊到文字)時非常有用。已經為此類建模提出了許多不同的技術——圖形模型、連續編碼器-解碼器方法以及各種其他迴歸或分類技術。這些模型需要解決的額外困難是模式之間的時間一致性要求。

許多早期的序列到序列翻譯工作使用圖形或潛在變數模型。Deena和Galata[47]提出使用共享高斯過程潛在變數模型進行基於音訊的視覺語音合成。該模型在音訊和視訊特徵之間建立了一個共享的潛在空間,可用於從另一個特徵生成一個空間,同時在不同的時間點增強視覺語音的時間一致性。

隱馬爾可夫模型(HMM)也被用於視覺語音生成[203]和文字語音轉換[245]任務。它們還被擴充套件到使用叢集自適應訓練,以允許對多個揚聲器、語言和情感進行訓練,從而在生成語音訊號[244]或視覺語音引數[6]時實現更大的控制。

編碼器-解碼器模型最近已成為序列到序列建模的流行模式。歐文斯等人。[157]使用LSTM根據視訊生成雞腿的聲音。雖然他們的模型能夠通過預測CNN視訊特徵中的耳蝸圖來產生聲音,但他們發現,根據預測的耳蝸圖檢索最近的音訊樣本可以獲得最佳結果。van den Oord等人提出了直接模擬語音和音樂生成的原始音訊訊號。〔209〕。作者建議使用層次結構的全卷積神經網路,這表明在語音合成任務上,它比以前的先進技術有了很大的改進。RNN也被用於語音到文字翻譯(語音識別)[72]。最近,基於編碼器-解碼器的連續方法被證明能夠很好地預測語音訊號中的字母,該語音訊號表示為濾波器組光譜[35]——允許更準確地識別稀有和詞彙外的單詞。Collobert等人[42]演示如何直接使用原始音訊訊號進行語音識別,無需音訊功能。許多早期的工作使用圖形模型來進行連續訊號之間的多模態轉換。然而,這些方法正被基於神經網路的編碼器-解碼器技術所取代。特別是它們最近被證明能夠表示和產生複雜的視覺和聲學訊號。

4.3模型評價與討論

多模態翻譯方法面臨的一個主要挑戰是很難對其進行評價。雖然語音識別等任務只有一個正確的翻譯,但語音合成和媒體描述等任務沒有。有時,就像在語言翻譯中一樣,多個答案都是正確的,決定哪個翻譯更好往往是主觀的。幸運的是,在模型評估中有許多近似的自動度量。

通常,評價主觀任務的理想方法是通過人的判斷。那就是讓一組人評估每一個翻譯。這可以在Likert量表上進行,在該量表中,每個翻譯都在一定的維度上進行評估:語音合成的自然度和平均意見分數[209]、[244]、視覺語音合成的現實性[6]、[203]以及媒體描述的語法和語義正確性、相關性、順序和細節[38]、[112]、[142]、[213]。另一種選擇是進行偏好研究,即向參與者提供兩個(或多個)翻譯以進行偏好比較[203],[244]。然而,雖然使用者研究的結果將得出最接近人類判斷的評價,但它們是費時和昂貴的。此外,在構建和引導它們時需要小心,以避免流暢性、年齡、性別和文化偏見。

雖然人類研究是評估的黃金標準,但已經為媒體描述的任務提出了許多自動替代方案:BLUE [160]、ROUGE [124]、Meteor [48]和CIDEr[ 211]。這些指標直接取自(或基於)機器翻譯中的工作,並計算出度量兩者之間相似性的得分生成的和基本的真實文字。

然而,它們的使用卻面臨著許多批評。Elliott和Keller[52]表明,句子水平的單格BLeu與人類判斷的相關性很弱。Huang等人[87]證明人類判斷與布魯和流星之間的相關性對於視覺故事講述任務來說非常低。此外,基於人類判斷的方法排序與在MS Coco挑戰[38]中使用自動度量的排序不匹配,因為在所有度量上,有大量演算法優於人類。最後,只有在大量參考翻譯很高的情況下,這些指標才能很好地工作[211],這通常是不可用的,尤其是對於當前的視訊描述資料集[205]。

這些批評導致Hodosh等人[83]提出使用檢索作為影象字幕評價的代理,他們認為這更好地反映了人類的判斷。基於檢索的系統不是生成標題,而是根據標題與影象的匹配程度對可用標題進行排序,然後通過評估正確的標題是否具有較高的排名來進行評估。由於許多標題生成模型具有生成性,因此它們可以直接用於評估給定影象的標題的可能性,而且影象標題社群正在對這些模型進行調整[99],[105]。視訊字幕社群也採用了這種基於檢索的評價指標[175]。

視覺問答(Visual question-answer, VQA)[130]任務的提出部分是由於影象字幕評價面臨的問題。VQA是一項任務,其中給定一個映像和一個關於其內容的問題,系統必須回答它。由於有了正確的答案,評估這樣的系統就更容易了。然而,它仍然面臨著某些問題和答案的模糊性和問題傾向性等問題。

我們認為,解決評價問題對多式翻譯系統的進一步成功至關重要。這樣不僅可以更好地比較各種方法,而且可以優化更好的目標。

5對齊

我們將多模態對齊定義為從兩個或多個模態中查詢例項子元件之間的關係和對應。例如,給定一幅影象和一個標題,我們希望找到與標題的單詞或短語對應的影象區域[98]。另一個例子是,給定一部電影,將其與劇本或書中它所基於的章節進行比對[252]。

我們將多模態對齊分為隱式對齊和顯式對齊兩種型別。在顯式對齊中,我們顯式地對在模式之間對齊子元件感興趣,例如,使用相應的教學視訊對齊菜譜步驟[131]。隱式對齊用作另一個任務的中間(通常是隱藏)步驟,例如,基於文字描述的影象檢索可以包括單詞和影象區域之間的對齊步驟[99]。這些方法的概述見表4,並在以下章節中進行了更詳細的介紹。

表4:多模式對齊挑戰的分類彙總。對於分類法的每個子類,我們都包含參考引文和對齊的模式


5.1顯式對齊

如果論文的主要建模目標是來自兩個或多個模式的例項子元件之間的對齊,那麼我們將其歸類為執行顯式對齊。顯式對齊的一個非常重要的部分是相似性度量。大多數方法依賴於以不同模式度量子元件之間的相似性作為基本構建塊。這些相似性可以手動定義,也可以從資料中學習。

我們確定了兩種處理顯式對齊的演算法——無監督演算法和(弱)監督演算法。第一種型別不使用直接對齊標籤(即來自不同模式的例項之間的通訊。第二種型別可以訪問這些(有時是弱)標籤。

無監督的多模式校準解決了模式校準而無需任何直接校準標籤。大多數方法都是從早期的統計機器翻譯校準工作[28]和基因組序列[3],[111]中得到啟發的。為了使任務更簡單,這些方法假定了對對齊的某些約束,例如序列的時間順序或模式之間存在相似性度量。

Dynamic time warping (DTW) [3],[111]是一種被廣泛用於多檢視時間序列對齊的動態規劃方法。DTW測量兩個序列之間的相似性,並通過時間扭曲(插入幀)找到它們之間的最優匹配。它要求兩個序列中的時間步驟具有可比性,並要求它們之間的相似性度量。DTW可以通過手工繪製模態之間的相似性度量直接用於多模態校準;例如Anguera等人[8]在字形和音素之間使用手工定義的相似性;以及Tapaswi等人[201]根據相同字元的外觀定義視覺場景和句子之間的相似性[201]以對齊電視節目和情節概要。類似DTW的動態程式設計方法也被用於文字到語音[77]和視訊[202]的多模式對齊。由於原始的DTW公式需要預先定義模態之間的相似性度量,因此使用正則相關分析(canonical correlation analysis, CCA)對其進行擴充套件,將模態對映到一個協調空間。這允許(通過DTW)對齊和(通過CCA)在不同的模態流之間以無監督的方式聯合學習對映[180]、[250]、[251]。基於CCA的DTW模型能夠找到線性變換下的多模態資料對齊,但不能建立非線性關係的模型。深度規範時間翹曲方法[206]已經解決了這一問題,它可以看作是深度CCA和DTW的一種推廣。

各種圖形模型也已流行於無監督的多模序列排列。Yu和Ballard的早期作品[239]使用生成圖形模型將影象中的視覺物件與口語對齊。庫爾等人[44]也採用了類似的方法,將電影快照和場景與相應的劇本對齊。Malmaud等。[131]使用係數化的hmm將食譜與烹飪視訊對齊,而noulas等人[154]使用動態貝葉斯網路將揚聲器與視訊對齊。Naim等人。[147]使用分層HMM模型將句子與幀對齊,並使用改進的IBM[28]演算法對單詞和物件進行對齊,從而將句子與相應的視訊幀進行匹配[15]。然後將該模型擴充套件到使用潛條件隨機欄位進行對齊[146],並將動詞對齊與名詞和物件之外的動作結合起來[195]。

用於對齊的DTW和圖形模型方法都允許對對齊進行限制,例如時間一致性、時間無大跳躍和單調性。雖然DTW擴充套件允許共同學習相似性度量和對齊,但基於圖形模型的方法需要專家知識來構造[44],[239]。

監督對齊方法依賴於標記對齊的例項。它們用於訓練用於對齊模式的相似性度量。

許多有監督序列對齊技術都是從無監督序列對齊技術中獲得靈感的。Bojanowski等人[22],[23]提出了一種類似於canonical time warping的方法,但也將其擴充套件到利用現有(弱)監督對齊資料進行模型訓練。Plummer等[161]利用CCA在影象區域和短語之間尋找一個協調的空間進行對齊。Gebru等[65]對高斯混合模型進行訓練,將半監督聚類與無監督的隱變數圖形模型進行聚類,將音訊通道中的揚聲器與視訊中的位置進行對齊。Kong等[108]訓練了馬爾可夫隨機場將三維場景中的物件與文字描述中的名詞和代詞進行對齊。

基於深度學習的方法越來越流行於顯式對齊(特別是用於度量相似性),這是因為最近在語言和視覺社群中出現了對齊的資料集[133]和[161]。Zhu等。[252]通過培訓CNN來測量場景和文字之間的相似性,使書籍與相應的電影/劇本保持一致。毛等人。[133]使用LSTM語言模型和CNN視覺模型來評估引用表示式和影象中物件之間匹配的質量。Yu等人[242]將該模型擴充套件到包括相對外觀以及上下文資訊,以便更好地消除同一型別物件之間的歧義。最後,Hu等人[85]使用基於LSTM的評分函式查詢影象區域及其描述之間的相似性。

5.2隱對齊

與顯式對齊相反,隱式對齊用作另一個任務的中間(通常是隱藏)步驟。這使得在許多工中,包括語音識別、機器翻譯、媒體描述和視覺問答,可以獲得更好的效能。這類模型不顯式地對齊資料,也不依賴於監督對齊示例,而是學習如何在模型培訓期間對資料進行隱式對齊。我們確定了兩種型別的隱式對齊模型:早期基於圖形模型的工作和更現代的神經網路方法。

圖形模型已經看到了一些早期的工作,用於更好地對齊機器翻譯語言之間的單詞[216]和語音音素與其轉錄的對齊[186]。但是,它們需要手動構造模式之間的對映,例如,將電話對映到聲學特性的生成電話模型[186]。構建這樣的模型需要培訓資料或人類專業知識來手動定義它們。

神經網路轉換(第4節)是一個建模任務的例子,如果將對齊作為潛在的中間步驟執行,那麼該任務通常可以得到改進。如前所述,神經網路是解決這一翻譯問題的常用方法,可以使用編碼器-解碼器模型,也可以通過跨模態檢索。當翻譯在沒有隱式對齊的情況下執行時,它最終會給編碼器模組帶來很大的負擔,使其能夠使用單個矢量表示正確地總結整個影象、句子或視訊。

解決這一問題的一種非常流行的方法是通過關注[12],它允許解碼器將焦點放在源例項的子元件上。這與在傳統編碼器-解碼器模型中將所有源子元件一起編碼形成對比。注意模組將告訴解碼器看起來更有針對性的子元件的原始碼翻譯領域的一個影象[230],單詞句子的[12],段音訊序列[35],[39],一個視訊幀和地區[236],[241],甚至部分指令[140]。例如,在影象字幕而不是使用CNN對整個影象進行編碼時,注意力機制將允許解碼器(通常是RNN)在生成每個連續單詞時聚焦影象的特定部分[230]。注意力模組,它學習影象的哪個部分要聚焦,通常是一個淺層的神經網路,與目標任務(如翻譯)一起進行端到端的訓練。

注意力模型也被成功地應用於答題任務中,因為它允許將問題中的單詞與資訊源的子元件(如文字[228]、影象[62]或視訊序列[246])進行對齊。這既可以在回答問題時提供更好的效能,也可以帶來更好的模型可解釋性[4]。尤其是不同型別的注意力模型其中包括分層[128]、層疊[234]和情景記憶注意[228]。

Karpathy等人提出了另一種將影象與標題對齊以進行跨模式檢索的神經替代方法。〔98〕,〔99〕。他們提出的模型使用影象區域和詞表示之間的點積相似度度量將句子片段與影象區域對齊,雖然它不使用注意,但通過訓練檢索模型間接學習的相似度度量,提取出形式之間潛在的對齊。

5.3討論

多模態對齊面臨許多困難:1)具有顯式標註對齊的資料集較少;2)兩種模式之間的相似度指標難以設計;3)可能存在多種可能的對齊方式,一種模式中的元素不一定在另一種模式中都有對應關係。早期關於多模對準的工作主要集中在以無監督的方式使用圖形模型和動態程式設計技術。

它依賴於手工定義的模式之間相似性的度量,或者在無監督的情況下學習它們。隨著最近標籤訓練資料的可用性,監督學習模式之間的相似性已經成為可能。然而,無監督的技術學習聯合起來對齊、轉換或融合資料也變得流行起來。

6融合

多模態融合是多模態機器學習中最早提出的課題之一,以往的研究主要側重於早期、晚期和混合融合方法[50][247]。在技術術語中,多模態融合是將來自多種模態的資訊整合在一起,並以預測結果為目標的概念:通過分類來預測一個類別(例如,快樂vs.悲傷),或者通過迴歸來預測一個連續值(例如,情緒的積極性)。這是25年前工作的多模態機器學習中研究最多的方面之一[243]。

對多模態融合的興趣來自於它能提供的三個主要好處。首先,能夠訪問觀察同一現象的多種模式,可能會使預測更加可靠。

AVSR社群尤其探索和利用了這一點[163]。其次,能夠訪問多種模式可能允許我們捕獲互補的資訊——一些在單獨的模式中不可見的資訊。第三,當其中一種模態缺失時,多模態系統仍然可以執行,例如,當一個人不講[50]時,從視覺訊號中識別情緒。

多模態融合有著非常廣泛的應用,包括視聽語音識別(AVSR)[163]、多模態情感識別[192]、醫學影象分析[89]和多媒體事件檢測[117]。關於這個主題有很多評論[11]、[163]、[188],〔247〕。它們中的大多數集中在針對特定任務的多模式融合上,例如多媒體分析、資訊檢索或情感識別。相反,我們專注於機器學習方法本身以及與這些方法相關的技術挑戰。

雖然之前的一些研究使用多模態融合這一術語來包含所有的多模態演算法,但在本文的研究中,我們將在預測後期進行多模態融合的方法歸為融合類,目的是預測結果度量。在最近的工作中,多模態表示和融合之間的界限已經變得模糊,例如深度神經網路,其中表示學習與分類或迴歸目標交織在一起。正如我們將在本節中描述的那樣,這條線對於其他方法(如圖形模型和基於核心的方法)更加清晰。

我們將多模態融合分為兩大類:不直接依賴於特定機器學習方法的模型不可知方法(第6.1節);以及在構建中顯式處理融合的基於模型的方法(第6.2節),例如基於核心的方法

方法,圖形模型和神經網路。這些方法的概述見表5。

表5:多模態融合方法的分類總結。輸出型別(類-分類或reg -迴歸)、臨時-是時間建模的可能。



6.1模型不可知論方法

歷史上,絕大多數多模融合都是用模型不可知論方法完成的[50]。這種方法可以分為早期(即基於特徵)、晚期(即基於決策)和混合融合[11]。早期融合在提取特徵後立即整合特徵(通常只需將其表示連線起來)。另一方面,後期融合在每種模式做出決定(例如分類或迴歸)後執行整合。最後,混合融合結合了早期融合的輸出和單個單模態預測因子。模型不可知方法的一個優點是,它們幾乎可以使用任何單模態分類器或迴歸器來實現。

早期融合可以看作是多模態研究人員進行多模態表示學習的初步嘗試,因為它可以學習利用每種模態的低層特徵之間的相關性和相互作用。此外,它只需要單個模型的訓練,這使得訓練管道比後期和混合融合更容易。

相比之下,延遲融合使用單模態決策值,並使用平均[181]、投票方案[144]、基於通道噪聲[163]和訊號方差[53]的加權等融合機制將其融合,或者使用學習模型[68]、[168]。它允許對每個模態使用不同的模型,因為不同的預測器可以更好地為每個單獨的模態建模,從而提供更多的靈活性。此外,當13種模式中的一種或多種缺失時,可以更容易地進行預測,甚至可以在沒有並行資料可用時進行培訓。然而,晚期融合忽略了模式之間的低水平相互作用。

混合融合試圖在公共框架中利用上述兩種方法的優點。它已成功地用於多模態揚聲器識別[226]和多媒體事件檢測(MED)[117]。

6.2基於模型的方法

雖然使用單模態機器學習方法很容易實現模型不可知的方法,但是它們最終使用的技術不是設計用來處理多模態資料的。在本節中,我們將描述用於執行多模態融合的三種方法:基於核心的方法、圖形模型和神經網路。

多核學習(multi kernel learning, MKL)方法是對核心支援向量機(kernel support vector machines, SVM)的擴充套件,它允許對資料的不同模式/檢視使用不同的核心[70]。由於核心可以看作是資料點之間的相似函式,MKL中特定於模式的核心可以更好地融合異構資料。

MKL方法是一種特別流行的融合視覺描述符用於物件檢測[31]的方法[66],直到最近才被用於任務的深度學習方法所取代[109]。它們也被用於多模態情感識別[36],[90],[182],多模態情緒分析[162]和多媒體事件檢測(MED)[237]。此外,McFee和Lanckriet[137]提出使用MKL從聲學、語義和社會視角資料對音樂藝術家進行相似性排序。最後,Liu等[125]在阿爾茨海默病分類中使用MKL進行多模態融合。它們的廣泛適用性證明了這些方法在不同領域和不同模式中的優勢。

除了核心選擇的靈活性之外,MKL的優點是損失函式是凸函式,允許使用標準優化包和全域性最優解進行模型訓練[70]。此外,mkl可以用於執行迴歸和分類。mkl的一個主要缺點是在測試期間依賴於訓練資料(支援向量),從而導致推理緩慢和記憶體佔用大。

圖形模型是多模態融合的另一種常用方法。在本節中,我們概述了使用淺層圖形模型進行多模態融合的工作。深度圖形模型的描述,如深度信念網路,可以在3.1節中找到。大多數圖形模型可分為兩大類:生成-建模聯合概率;或判別-建模條件概率[200]。最早使用圖形模型進行多模態融合的方法包括生成模型,如耦合[149]和階乘隱馬爾可夫模型[67]以及動態貝葉斯網路[64]。最近提出的多流HMM方法提出了AVSR模式的動態加權[75]。

可論證的是,生成模型的受歡迎程度不如條件隨機場(CRF)等判別模型[115],條件隨機場犧牲了聯合概率的建模來獲得預測能力。CRF模型通過結合影象描述的視覺和文字資訊來更好地分割影象[60]。CRF模型已經擴充套件到使用隱藏的條件隨機欄位來模擬潛在狀態[165],並已應用於多模態會議分割[173]。潛在變數判別圖形模型的其他多模態應用包括多檢視隱藏CRF[194]和潛在變數模型[193]。最近Jiang等[93]展示了多模態隱藏條件隨機域在多媒體分類任務中的優勢。雖然大多數的圖形模型都是以分類為目的的,但CRF模型已經擴充套件到連續版本進行迴歸[164],並應用於多模態設定[13]進行聲像情感識別。

圖形化模型的優點是能夠方便地利用資料的空間和時間結構,使其在時間建模任務(如AVSR和多模態影響識別)中特別受歡迎。它們還允許將人類的專家知識構建到模型中。並經常導致可解釋的模型。

神經網路在多模態融合中得到了廣泛的應用[151]。使用神經網路進行多模態融合的最早例子來自AVSR的研究[163]。

如今,它們被用來融合資訊,用於視覺和媒體的問答[63]、[130]、[229]、手勢識別[150]、情感分析[96]、[153]和視訊描述生成[94]。雖然使用的模式、架構和優化技術可能有所不同,但在神經網路的聯合隱藏層中融合資訊的總體思想是相同的。

神經網路也被用於融合時間多模態資訊通過使用RNNs和LSTMs。較早的此類應用之一是使用雙向LSTM進行視聽情緒分類[224]。最近,Wollmer等人[223]使用–lstm模型進行連續多模態情緒識別,顯示了其優於圖形模型和SVM。同樣,Nicolaou等人[152]使用LSTMS進行持續情緒預測。他們提出的方法使用一個lstm來融合模態特定(音訊和麵部表情)lstms的結果。接近形態融合通過遞迴神經網路被用於各種影象字幕任務,例如模型包括:神經影象字幕[214],CNN是使用一種LSTM語言解碼影象表示模型,gLSTM[91]包含了影象資料的句子一起解碼在每一個時間步融合視覺和句子中的資料聯合表示。最近的一個例子是Rajagopalan等人提出的多檢視LSTM (mvc -LSTM)模型[166]。MV-LSTM模型通過顯式地建模特定於模態和跨模態的互動,允許靈活地融合LSTM框架中的模態。深度神經網路方法在資料融合方面的一大優勢是能夠從大量資料中學習。其次,最近的神經結構允許對多模態表示元件和融合元件進行端到端訓練。最後,與基於非神經網路的系統相比,它們表現出了良好的效能,並且能夠學習其他方法所面臨的複雜決策邊界。

神經網路方法的主要缺點是缺乏可解釋性。很難判斷這種預測依賴於什麼,以及哪種模式或特徵起著重要作用。此外,神經網路需要大的訓練資料集才能成功。

6.3討論

多模態融合是一個被廣泛研究的課題,提出了許多方法來解決它,包括模型不可知方法、圖形模型、多核學習和各種型別的神經網路。每種方法都有自己的優點和缺點,有些方法更適合於較小的資料集,有些方法在嘈雜的環境中效能更好。

最近,神經網路已經成為處理多模態融合的一種非常流行的方法,然而圖形模型和多核學習仍在使用,特別是在訓練資料有限或模型可解釋性很重要的任務中。

儘管取得了這些進展,多模態融合仍然面臨以下挑戰:1)訊號可能不是時間對齊的(可能是密集連續訊號和稀疏事件);2)難以建立利用補充資訊而不僅僅是補充資訊的模型;3)每種模態可能在不同的時間點表現出不同的型別和不同程度的噪聲。

7協同學習

分類法中的最後一個多模態挑戰是協同學習——通過從另一個(資源豐富的)模態中獲取知識來幫助(資源貧乏的)模態建模。當其中一種模式的資源有限時(缺少帶註釋的資料、有噪聲的輸入和不可靠的標籤),它尤其重要。我們稱這種挑戰為共同學習,因為大多數情況下,輔助模式只在模型訓練中使用,在測試期間不使用。我們根據培訓資源確定了三種類型的共同學習方法:並行、非並行和混合。並行資料方法需要訓練資料集,其中來自一種模式的觀察直接連結到來自其他模式的觀察。換句話說,當多模態觀測來自相同的例項時,例如在視聽語音資料集中,其中的視訊和演講樣本來自同一個演講者。相反,非並行資料方法不需要在不同模式的觀測之間建立直接聯絡。這些方法通常通過在類別上使用重疊來實現共同學習。例如,在零鏡頭學習中,傳統的視覺物件識別資料集通過維基百科的第二個純文字資料集進行擴充套件,以提高視覺物件識別的通用性。在混合資料設定中,模式通過共享模式或資料集進行橋接。共同學習方法的概述可以是

見表6,資料並行性總結見圖3。

圖3:用於共同學習的資料並行性型別:並行模式來自相同的資料集,例項之間存在直接對應關係;非並行模式來自不同的資料集,沒有重疊的例項,但在一般類別或概念上有重疊;混合——例項或概念通過第三種模式或資料集進行橋接。



7.1平行資料

在並行資料共同學習中,兩種模式共享一組例項——帶有相應視訊、影象及其句子描述的音訊記錄。這允許兩種演算法利用這些資料來更好地建模模式:聯合訓練和表示學習。

協同訓練是在多模態問題[21]中只有少量的標記樣本時,生成更多標記樣本的過程。基本演算法在每個模態中構建弱分類器,以便為未標記的資料彼此引導標籤。研究表明,在Blum和Mitchell的開創性工作[21]中,人們發現了更多基於網頁本身和超連結的網頁分類培訓樣本。根據定義,該任務需要並行資料,因為它依賴於多模態樣本的重疊。

聯合訓練已用於統計分析[178]以構建更好的視覺檢測器[120]和視聽語音識別[40]。它還可以通過過濾不可靠的樣本[41]來處理兩種模式之間的不一致。雖然聯合訓練是一種生成更多標記資料的強大方法,但它也會導致訓練樣本偏置,導致過擬合。轉移學習是利用並行資料協同學習的另一種方法。多模表示學習(第3.1節)方法,如多模深Boltzmann機器[198]和多模自動編碼器[151]將資訊從一種形式的表示轉移到另一種形式的表示。這不僅會導致多模態表示,而且會導致更好的單模態表示,在測試期間只使用一種模態[151]。Moon等[143]展示瞭如何將資訊從語音識別神經網路(基於音訊)傳輸到脣讀神經網路(基於影象),從而獲得更好的視覺表徵,並建立了一個在測試期間無需音訊資訊即可進行脣讀的模型。同樣,Arora和Livescu[10]利用CCA在聲學和發音(嘴脣、舌頭和下巴的位置)資料上構建了更好的聲學特徵。他們只在CCA構建期間使用發音資料,在測試期間只使用產生的聲學(單模態)表示。

7.2非並行資料

依賴於非並行資料的方法不需要模式具有共享例項,而只需要共享類別或概念。非並行協同學習方法在學習表示時可以提供幫助,允許更好地理解語義概念,甚至可以執行不可見的物件識別。

遷移學習也可以在非並行資料上進行,並允許通過將資訊從使用資料豐富或乾淨的模式構建的表示傳輸到資料稀缺或嘈雜的模式來學習更好的表示。這種型別的傳輸學習通常是通過使用協調的多模態表示來實現的(見第3.2節)。例如,Frome等人[61]通過將CNN視覺特徵與在單獨大資料集上訓練的Word2vec文字特徵相協調,使用文字改善影象分類的視覺表示[141]。以這種方式訓練出來的視覺表現形式會導致更有意義的錯誤——將物體誤認為同類物體[61]。Mahasseni和Todorovic[129]演示瞭如何使用基於3D骨骼資料的LSTM自動編碼器,通過增強其隱藏狀態之間的相似性,來規範基於LSTM的彩色視訊。這種方法能夠改進原始的LSTM,並在動作識別中實現最先進的效能。

概念基礎是指學習語義意義或概念,不僅僅是基於語言,還包括視覺、聽覺、甚至是嗅覺[16]等附加形式。雖然大多數概念學習方法都是純語言為基礎的,但人類對意義的表徵不僅是我們語言暴露的產物,而且也是通過我們的感覺運動經驗和感知系統[17]而建立起來的[126]。人類的語義知識在很大程度上依賴於感知資訊[126],許多概念是建立在感知系統的基礎上的,並非純粹的符號[17]。這意味著單純從文字資訊中學習語義意義可能不是最優的,並會激發使用視覺或聽覺線索來為我們的語言表徵奠定基礎。

從工作由馮和Lapata[59],接地通常是由之間找到一個共同的潛在空間表徵[59],[183](並行資料集的情況下)或通過學習單峰表示分開,然後導致一個多通道連線[29],[101],[172],[181](對於非並行資料)。一旦構建了多模態表示,它就可以用於純語言任務。Shutova et al.[181]和Bruni et al.[29]使用紮根表徵對隱喻和字面語言進行了更好的分類。這種表示法也有助於衡量概念上的相似性和關聯性——確定兩個詞在語義上或概念上是如何相關的[30]、[101]、[183]或行為[172]。此外,概念不僅可以使用視覺訊號,還可以使用聲學訊號,這使得概念在與聽覺相關的單詞上有更好的表現[103],對於與嗅覺相關的單詞甚至可以使用嗅覺訊號[102]。最後,多模對齊和概念性接地之間有很多重疊,因為將視覺場景與其描述對齊會導致更好的文字或視覺表示[108]、[161]、[172]、[240]。

概念基礎已被發現是一種有效的方法,以提高效能的一些任務。它還表明,語言和視覺(或音訊)是互補的資訊源,將它們組合在多模態模型中通常可以提高效能。但是,必須小心,因為接地並不總是能帶來更好的效能[102],[103],並且只有當接地與任務相關時才有意義-例如,使用影象進行接地以獲得視覺相關概念。

零距離學習(Zero shot learning, ZSL)指在沒有明確看到任何例子的情況下識別概念。例如,在沒有見過(標記的)貓的影象的情況下對影象中的貓進行分類。這是一個需要解決的重要問題,例如在許多工中,如視覺化物件分類:為每一個感興趣的可想象物件提供培訓示例是非常昂貴的。

ZSL主要有兩種型別——單模態和多模態。單模態ZSL檢視物件的組成部分或屬性,如用於識別未聽過的單詞的音素,或用於預測未見的可視類[55]的視覺屬性,如顏色、大小和形狀。多模zsl通過第二模態的幫助識別主模態中的物件——在第二模態中,物件已經被看到。根據定義,zsl的多模式版本是一個面臨非並行資料的問題,因為所見類的重疊在模式之間是不同的。Socher等[190]將影象特徵對映到概念詞空間,能夠對可見和不可見的概念進行分類。然後,看不見的概念可以分配給一個接近視覺表示的單詞——這是通過在一個單獨的資料集上訓練語義空間來實現的,該資料集看到了更多的概念。而不是學習從視覺到概念空間的對映,Frome等[61]學習概念之間的協調多模態表示以及支援ZSL的影象。Palatucci等人[158]根據功能磁共振影象對人們正在思考的單詞進行預測,他們展示瞭如何通過中間語義空間預測看不見的單詞。Lazaridou等人[118]提出了一種通過神經網路將提取的視覺特徵向量對映到基於文字的向量的快速對映方法。

7.3混合資料

在混合資料設定中,兩個非並行模式由共享模式或資料集橋接(見圖3c)。最值得注意的例子是橋接相關神經網路[167],它使用一箇中心模態來學習存在非並行資料的協調多模態表示。例如,在多語言影象標題的情況下,影象模式在任何語言中總是與至少一個標題配對。這些方法也被用來連線那些可能沒有並行語料庫但可以訪問共享的樞軸語言的語言,例如機器翻譯[148]、[167]和文件音譯[100]。

有些方法不使用單獨的模式進行橋接,而是依賴於來自類似或相關任務的大型資料集的存在,從而在僅包含有限註釋資料的任務中獲得更好的效能。Socher和Fei-Fei[189]利用大文字語料庫的存在來指導影象分割。而Hendricks等[78]採用單獨訓練的視覺模型和語言模型,可以得到更好的影象和視訊描述系統,但資料有限。

7.4討論

多模態聯合學習允許一種模態影響另一種模態的訓練,利用跨模態的互補資訊。需要注意的是,聯合學習是獨立於任務的,可以用於建立更好的融合、轉換和對齊模型。以協同訓練、多模態表示學習、概念基礎和零鏡頭學習(zero shot learning, ZSL)等演算法為例,在視覺分類、動作識別、視聽語音識別和語義相似度估計等領域得到了廣泛的應用。

8、總結

作為綜述的一部分,我們介紹了多模式機器學習的分類法:表示、翻譯、融合、對齊和共同學習。其中一些,如融合,已經研究了很長時間,但最近對錶示和翻譯的興趣導致了大量新的多模態演算法和令人興奮的多模態應用。我們相信,我們的分類法將有助於編目未來的研究論文,並更好地理解多模機器學習所面臨的遺留問題。