1. 程式人生 > 實用技巧 >多模態學習方法綜述(期刊論文)

多模態學習方法綜述(期刊論文)

期刊:工程科學學報

引用:陳鵬,李擎,張德政,楊宇航,蔡錚,陸子怡.多模態學習方法綜述[J/OL].工程科學學報:1-13[2020-05-18].https://doi-org-443.wv*n.hrbeu.edu.cn/10.13374/j.issn2095-9389.2019.03.21.003.


摘要:大資料是多源異構的。在資訊科技飛速發展的今天,多模態資料已成為近來資料資源的主要形式。研究多模態 學習方法,賦予計算機理解多源異構海量資料的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任 務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此 外,本文系統歸納了近兩年較為新穎的基於對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式, 並對未來可能的研究方向進行思考與展望。


早在公元前 4 世紀,多模態的相關概念和理論即被哲學家和藝術家所提出,用以定義融合不同內 容的表達形式與修辭方法[1-2]。20 世紀以來,這一概念被語言學家更為廣泛地應用於教育學和認知科學領域[3]。近年來,描述相同、相關物件的多源資料在網際網路場景中呈指數級增長,多模態已成為新 時期資訊資源的主要形式。

人類的認知過程是多模態的。個體對場景進行感知時往往能快速地接受視覺、聽覺乃至嗅覺、觸覺的訊號,進而對其進行融合處理和語義理解。多模態機器學習方法更貼近人類認識世界的形式。本 文首先介紹了多模態的概念與基本任務,分析了多模態認知學習的起源與發展。結合網際網路大資料形態,本文重點綜述了多模態統計學習方法、深度學習方法與對抗學習方法。


1 多模態學習的定義、基本任務與發展過程

  • 多模態學習的定義


本文主要採用了新加坡國立大學 O'Halloran 對“模態”的定義,即相較於影象、語音、文字等多 媒體(Multi-media)資料劃分形式,“模態”是一個更為細粒度的概念,同一媒介下可存在不同的模 態[4]。概括來說,“多模態”可能有以下三種形式。

  1. 描述同一物件的多媒體資料。如網際網路環境下描述某一特定物件的視訊、圖片、語音、文字 等資訊。圖 1 即為典型的多模態資訊形式。
  2. 來自不同感測器的同一類媒體資料。如醫學影像學中不同的檢查裝置所產生的影象資料,包括B超(B-Scan ultrasonography)、計算機斷層掃描(CT)、核磁共振等;物聯網背景下不同感測器所檢測到的同一物件資料等。
  3. 具有不同的資料結構特點、表示形式的表意符號與資訊。如描述同一物件的結構化、非結構化的資料單元;描述同一數學概念的公式、邏輯符號、函式圖及解釋性文字;描述同一語義的詞向量、詞袋、知識圖譜以及其它語義符號單元等[5]。



因此,從語義感知的角度切入,多模態資料涉及不同的感知通道如視覺、聽覺、觸覺、嗅覺所接收到的資訊;在資料層面理解,多模態資料則可被看作多種資料型別的組合,如圖片、數值、文字、 符號、音訊、時間序列,或者集合、樹、圖等不同資料結構所組成的複合資料形式,乃至來自不同數 據庫、不同知識庫的各種資訊資源的組合。對多源異構資料的挖掘分析可被理解為“多模態學習 (Multimodal machine learning)”,其相關概念有“多視角學習”和“多感測器資訊融合”。來自不 同資料來源、具有不同結構特徵的資料被稱作多視角資料,每個資料來源、每種資料型別均可被看作一個視角。卡內基梅隆大學的 Morency 在 ACL2017(The 55th Annual Meeting of the Association for Computational Linguistics,CCF A 類會議)的 Tutorial 報告[6]中,將大量的多視角學習方法歸類為多模態機器學習演算法。筆者認為,“多視角學習”強調對資料“視角”的歸納和分析,“多模態學習”則側重“模態”感知和通道。“視角”和“模態”的概念是相通的,一個模態即可被視作一個視角。“多感測器資訊融合(Multi-sensor information fusion)”為在物理層面與“多模態學習”相關的術 語,即對不同感測器採集的資料進行綜合利用,其典型應用場景有物聯網、自動駕駛等。

  • 多模態機器學習的基本任務

多模態學習的基本任務可包括以下幾個方面。

多源資料分類:單模態的分類問題只關注對一類特定資料的分析和處理,相較於單一通道,多模態資料更接近大資料背景下資訊流真實的形態,具有全面性和複雜性。

多模態情感分析:情感分析問題的本質也是分類問題,與常規分類問題不同,情感分類問題所提取的特徵往往帶有明確的情緒訊號;從多模態的角度分析,網路社交場景中所衍生的大量圖片、文 本、表情符號及音訊資訊均帶有情感傾向。

多模態語義計算:語義分析是對資料更為高層次的處理,理想狀態下,計算機能夠處理一個特定場景下不同資料的概念關係、邏輯結構,進而理解不同資料中隱含的高層語義;對這種高層語義的理解是有效進行推理決策的前提。

跨模態樣本匹配:現階段,最常見的跨模態資訊匹配即為影象、文字的匹配,如 Flickr30k[7]資料 集中的例項;影象文字匹配任務為較為複雜的機器學習任務,這一任務的核心在於分別對影象、文字的特徵進行合理表示、編碼,進而準確度量其相似性。

跨模態檢索:在檢索任務中,除了實現匹配外,還要求快速的響應速度以及正確的排序;多模態 資訊檢索通過對異構資料進行加工,如直接對圖片進行語義分析,在有效特徵匹配的情況下對圖片採用基於內容的自動檢索形式;為適應快速檢索的需要,雜湊方法被引入多模態資訊檢索任務中,跨模態雜湊方法將不同模態的高維資料對映到低維的海明空間,有效減小了資料儲存空間,提高了計算速度。

跨模態樣本生成:跨模態生成任務可以有效構造多模態訓練資料,同時有助於提高跨模態匹配與翻譯的效果,目前由影象到文字(如影象語義自動標註)、影象到影象(如圖片風格遷移)的生成任 務發展較為成熟,由文字到影象的生成任務則較為新穎。

多模態人機對話:即在基本對話(文字模態)生成任務的基礎上,進一步對人的表情、語調、姿 勢等多模態資訊進行採集,採用模態融合的方法對多模態訊號進行分析處理。多模態人機對話的理想狀態是在有效感知多模態訊號的前提下給出擬人化的多模態輸出,構建更為智慧、溝通更加順暢的人機互動形式。

多模態資訊融合:多模態融合要求對多源資料進行綜合有效地篩選和利用,實現整合化感知與決策的目的,常見的資訊融合方式有物理層融合、特徵層融合、決策層融合幾個型別。物理層融合指在感知的第一階段,在感測器層級對採集到的資料進行融合處理,這種處理方式可被概括為多感測器信 息融合(Multi-sensor information fusion),是工業生產場景中極為常見的資訊融合方法;特徵層融合 指在特徵抽取和表達的層級對資訊進行融合,如對同一場景中不容攝像頭採集到的影象採用相同的特徵表達形式,進而進行相應的疊加計算;決策層融合指對不同模態的感知模型所輸出的結果進行融合,這種融合方式具有較好的抗干擾性能,對於感測器效能和種類要求相對不高,但具有較大的資訊損耗。

  • 多模態機器學習的發展——從符號計算到深度學習

隨著計算機技術的發展,多模態認知的概念從傳統的教育學、心理學、語言學的範疇拓展至資訊科學領域。上世紀 60~70 年代,科學家利用符號和邏輯結構模擬人類的思維邏輯,如利用語法樹分析文字資訊[8],利用規則庫構建專家決策系統[9]。由於人類認知過程的複雜性與流動性,有效、實時地 制定邏輯結構和規則形式成為制約“符號主義”認知智慧的主要因素。

上世紀 80 年代至 21 世紀初,統計機器學習方法在智慧資訊處理的各個領域取得了令人矚目的成就。Cortes 和 Vapnik 提出的支援向量機模型可以快速、準確地處理高維、非線性的模式識別問 題[10];Pearl 所構建的概率圖模型賦予了計算機依據概率推理的能力[11];進一步地,Jelinek 將資訊理論 與隱馬爾科夫模型引入語音識別與自然語言處理領域,奠定了近代統計自然語言處理學派的根基,使 自然語言處理的工程化應用成為可能[12]。

在這一階段,受麥格克效應的啟發[13],許多電腦科學家致力於構建基於視覺訊號和聲音訊號的 多模態語音識別系統,如脣語-聲音語音識別系統[14],有效提高了識別準確率。這一時期的多模態資訊系統還被應用於人機互動場景,如 Fels 等提出的 Glove-talk 框架(1992 年)採用 5 個多層神經網路實現對手勢、聲音、語義的機器感知[15]。這一神經網路模型的結構還比較簡單,其採用的後向傳播 訓練方法易出現過擬合現象,因而無法對複雜的大規模資料進行處理。

2010 年至今,隨著 Dropout 訓練模式[16]的提出、Relu 啟用函式[17]的引入乃至深度殘差結構[18]對網路的調整,深度神經網路在許多單一模態的感知型機器學習任務中取得了優於傳統方法的效果。以 AlexNet[19]、ResNet[18]、GoogleNet[20]為代表的改進卷積神經網路(Convolutional neural network, CNN)模型在 ImageNet[21]影象分類任務中甚至取得了超過人類的表現;長短記憶模型(Long short term memory,LSTM)和條件隨機場(Conditional random field,CRF)的組合結構在自然語言序列標 注特別是命名實體識別任務中實現了極為成功的商業化、工程化應用[22]。多模態深度學習已成為人工 智慧領域的熱點問題。Ngiam 等在 ICML2011(28th International Conference on Machine Learning)的 大會論文中對多模態深度學習進行了前瞻性的綜述,而這一階段的深度學習主要網路結構為深度玻爾 茲曼機(Deep boltzmann machines)[23]。卡內基梅隆大學的 Baltrusaitis 等也開展了大量的多模態深度 學習研究[24]。

在國內,北京交通大學的 Zhang 等[25],北京郵電大學的 Wang 等在跨模態資訊匹配和檢索領域開展了許多卓有成效的工作[26];清華大學的 Liu 等對視覺模態、觸覺模態的資料展開研究,並將其應用於機器人綜合感知場景[27];清華大學的 Fu 等則在影象語義標註領域取得了若干突破[28]。

在人工智慧技術突飛猛進的今天,開展資料驅動的多模態學習方法研究,能夠取得更為全面有效 的解決方案。對多模態資料的分析處理可採用機器學習手段來完成,處理多模態資料的機器學習方法即可被視為多模態學習方法。機器學習是從資料中優化演算法的一種人工智慧手段,它涵蓋統計學習與 深度學習等方法。近幾年,對抗學習技術被廣泛地應用於跨模態匹配和生成任務中,並取得了令人矚 目的效果。後文將分別對多模態統計學習方法、多模態深度學習方法、多模態對抗學習方法進行綜述與分析。


2 多模態統計學習方法

廣義的統計學習(Statistical learning)即採用統計學的相關理論,賦予計算機處理資料能力的機器學習方法。如統計學家和數學家 Breiman 提出的隨機森林(Random forest)演算法[29],Breiman 和 Friedman 等一同提出的分類迴歸樹(Classification and regression trees, CART)演算法[30],Cortes 和 Vapnik 提出的支援向量機(Support vector machine, SVM)演算法[10]等。統計學習方法和經典機器學習方法在概念上是基本重合的。上述統計學習界的領軍學者分別在不同角度完善了該領域的基本概念和 理論體系。如 Breiman 在資料建模和演算法建模兩個角度重新解讀了機器學習的建模方式,即資料建模 方式往往預設資料符合某種分佈形式,如線性迴歸、邏輯迴歸等,進而進行引數估計和假設推斷;而演算法建模則試圖通過演算法去直接尋找對映函式以達到由輸入預測輸出的目的,如決策樹與神經網路結 構[31]。Vapnik 和 Cervonenkis 歸納了他的 VC(Vapnik–Chervonenkis dimension)維理論,不僅對典型的分類器模型與這些模型所能區分的集合大小進行系統總結,還給出了對模型最大分類能力進行分析的有效方法[32]。

受計算資源等因素的制約,統計學習方法的處理樣本往往是中小規模的資料集,在許多工(如 影象處理和自然語言處理任務)的處理過程中,需要人為參與的特徵處理過程。多模態機器學習技術 是伴隨著統計學習理論的完備、大量新穎有效的統計學習方法的提出逐漸發展的。本節將結合多模態資料的特點,對相應的統計學習方法進行介紹。

  • 核學習方法與多核學習

核學習(Kernel learning)方法是一種將低維不可分樣本通過核對映的方式對映到高維非線性空間,實現對樣本有效分類的方法[33],如圖 2 所示。核學習方法是支援向量機(SVM)演算法的有力理 論支撐,也隨著支援向量機的廣泛應用被研究者和工程技術人員所關注。事實上,早在 1909 年,英國數學家 Mercer 即提出了其重要的 Mercer 定理,即任何半正定的函式都可作為核函式,奠定了核學 習方法的理論基礎[34]。在 Mercer 定理的基礎上,波蘭裔美國數學家 Aronszajn 進一步發展了再生核希爾伯特空間理論,使其能夠被引入到模式識別任務中[35]。



多核學習方法為不同模態的資料和屬性選取不同的核函式,進而採用特定方法對不同核函式進行融合。目前,隨著多核學習方法被深入研究並應用於不同的場景,不同形式的核函式及其改進形式被提出。如對於數值型資料的分類問題,高斯核具有較好的處理效果[36];字串核對序列型問題的分類處理(如文字、音訊、基因表達等)具有較大的優勢[37];對於人臉識別問題和行人識別問題,則可以採用直方圖交叉核[38]。

多核學習方法可以較好地處理異構資料的分類和識別問題。早期的多核資料融合方法多采用對不同核進行線性疊加組合的形式,為生物醫學工程領域許多問題的求解(如基因功能分析、蛋白質功能 預測與定位等)提供了有力的解決方案[39]。線性疊加的核融合方式具有機理簡單、可解釋性強、計算 速度快等優勢,但其疊加係數往往較難確定,在疊加的同時可能造成一定的資訊損失。文獻[40]提出採用“核組合”的方式解決該問題,即將不同的核矩陣組合,構成一個更高維的矩陣作為新的核矩陣 完成對映與分類的任務。文獻[41]提出了一種改進的判別函式,並採用梯度下降法優化該表示式中的核引數。文獻[42]則採用粒子群優化演算法對核引數進行優化選擇。

  • 典型相關性分析

典型相關性分析(Canonical correlation analysis, CCA)是一種用途廣泛的統計學分析演算法,由 Hotelling 於 1935 年提出[43],並由 Cooley 和 Lohnes 推動其發展[44]。在多模態領域,CCA 被廣泛地應 用於度量兩種模態資訊之間的相關特徵,並在計算中儘可能保持這種相關性。

CCA 演算法的本質是一種線性對映,採用 CCA 對複雜的非線性多模態資訊進行擬合可能造成資訊的損耗。在 CCA 的基礎上,Akaho 提出了與核方法結合的非線性的 Kernel CCA 演算法[45]。CCA 的其他改進形式還有判別典型相關分析(Discriminant canonical correlation analysis, DCCA)[46]、稀疏典型 相關分析(Sparse discriminant canonical correlation analysis, SCCA)等[47]。

  • 共享子空間學習

在高層語義空間中,多源資料具有較強的相關性。對於底層的特徵表示,不同來源的資料往往具有較大差別。共享子空間學習對多源資料的相關關係進行挖掘,得到多模態特徵的一致性表示,如圖 3 所示。



共享子空間學習可通過投影的方式實現,最常見的投影方法即 2.2 節中給出的 CCA 方法及其改進形式。SVM-2K 演算法是投影型共享子空間學習的典型演算法,該演算法結合 SVM 與 Kernel CCA[45]對兩個模態的特徵進行有效對映、表示和整合[48]。張量分析及因子分解也是典型的共享子空間學習方法, 這種方法的主要思想是將一個模態的資訊看作一階張量,通過因子分解、判別式分析等形式實現降維 並對特徵進行相關表示,其典型方法為聯合共享非負矩陣分解(Joint shared nnnegative matrix factorization, JSNMF)演算法[49]。從任務驅動的角度來分類,典型的共享子空間學習方法還有基於多任 務學習的共享子空間學習方法[50]、基於多標籤學習的共享子空間學習方法等[51]。

基於統計學習的子空間投影的形式相對簡單,難以處理較為複雜的語義感知任務,對於相似模態的資料(如不同感測器的影象資料)優勢明顯,但在跨度較大的模態上表現不佳。近年來,隨著深度 學習的興起,許多研究者將深度學習模型應用於多源資訊處理領域。從結果上來看,絕大多數的深度學習多源資訊處理方法將不同模態的資料通過深度神經網路特徵學習對映到了同一個共享子空間,因此深度學習方法也可被視為共享子空間學習。對該方法將在第三部分中作進一步的介紹。

  • 協同訓練方法

協同訓練(Co-training)是一種典型的弱監督學習方法,該方法由 Blum 和 Mitchel 於 1998 年提出[52]。在多模態資料處理領域,它的大致思想是分別採用兩個模態的有標籤資料 X1、X2 訓練兩個分 類器,進而用這兩個分類器對各自模態內的無標籤資料進行處理。在此基礎上,將分類結果中達到一 定置信度的樣本作為訓練集的補充,擴大訓練集規模,進一步對分類器進行訓練。在滿足一定停止條件,如達到一定迭代代數後,將兩個分類器的訓練資料進行交換,即採用 X1模態中的資料對分類器 2 (Classifier2)進行訓練,同時採用 X2中的資料對分類器 1(Classifier1)進行訓練。協同訓練的原理圖 如圖 4 所示。這種聯合訓練方法使分類器學習到不同資料來源中儘可能多的知識,同時具備了較好的泛 化效能。協同訓練假定資料集滿足三個條件:1)資料之間相互獨立;2)單一模態內的資料均能完整地對物件進行描述;3)存在充分的樣本對分類器進行訓練。然而在實際的應用場景中,往往很難滿足上述的條件。研究者提出了多種改進手段以提升協同訓練的效能。




3 多模態深度學習方法

基本的神經網路模型(淺層結構)可被歸納為一種特殊的統計學習方法。不同於支援向量機的核技巧採用核對映轉化問題,神經網路結構直接採用非線性對映(啟用函式)的形式擬合數據分佈規 律。神經網路是深度學習的起源,後者是對採用深度神經網路完成機器學習任務的各種機器學習方法 的概括。近年來,深度學習方法已成為推動人工智慧技術的主要力量。隱層大於 1 的神經網路即可被 看作深度神經網路,常見的深度神經網路模型有卷積神經網路(Convolutional neural networks, CNN)[56]、迴圈神經網路(Recurrent neural networks, RNN)[57]、深度信念網路(Deep belief networks, DBN)[58]等。深度學習的發展建立在統計學習的高度繁榮之上,得益於不斷髮展的網際網路 技術積累了大量的資料資源,以及更為普及的高效能運算硬體。有別於統計學習依賴於專家知識來確定特徵的限制,深度學習模型可以自動地在資料中學習特徵表示,從而能夠對海量資料進行處理,在一定程度上實現端到端的機器學習系統。

  • 卷積神經網路與影象處理

Lécun 於 1998 年提出了經典卷積神經網路的雛形 LeNet,並將其應用於手寫字元識別[56]。針對 CNN 訓練過程中的過擬合問題,Srivastava 等提出了 Dropout 方法,即在網路結構中以一定概率將某 些神經元暫時丟棄[16]。這種方法被應用於 AlexNet[19]中。在 AlexNet 之後,改進了的 CNN 結構不斷重新整理 ImageNet 影象分類的記錄。如牛津大學的 VGG (Visual geometry group)[59]模型和 Google 公司的 Inception[20]系列模型,在增加 CNN 網路層數的同時設計了精巧豐富的卷積核結構,從而降低引數數 量,提高訓練速度。微軟公司的ResNet[40]模型引入殘差結構,有效解決了梯度消失問題。在影象分 類之外的計算機視覺任務中,CNN 同樣取得了優於經典影象處理方法的效果。如目標檢測(Object detection)領域的 Yolo(You only look once)模型[60],語義分割(Semantic segmentation)領域的 FCNN(Fully convolutional networks)模型[61]等。有理由認為,CNN 及其改進形式能夠較好地對視覺 模態特徵進行表示和處理。

  • 迴圈神經網路與自然語言理解

近年來,自然語言處理域的研究熱點正在從經典的統計學習方法向深度學習方法轉變。典型的深 度文字處理模型即迴圈神經網路(Recurrent neural network, RNN)結構[57]。該結構源於蒙特利爾大學 Bengio 等於 2003 年提出的神經語言模型[65]。神經語言模型實現了語言最基本的單元——詞的向量化表示。受文獻[65]啟發,C&W 詞向量[66]、Word2Vec 詞向量[67]等文字表示模型相繼被提出。

神經語言模型的提出使文字轉化為稠密的向量成為可能,已成為目前處理自然語言任務的主流算 法。值得一提的是,文獻[65]至[67]中的文字表示及學習方法均為較為淺層的結構,其價值在於通過弱監督、無監督的手段得到文字的表示形式,進而供較為深層的神經網路機器學習模型進行挖掘分析。

在神經語言模型的基礎上,大量的深度神經網路結構被改良並進一步應用於自然語言處理任務, 如 RNN[57]、LTSM [68]被廣泛地應用於文字分類[69]、實體識別[22]等任務。由於 RNN 能夠出色地學習 序列樣本中不同時刻的資訊及其相互關係,RNN 結構在機器翻譯、對話生成等序列分析及序列生成 任務中的優勢極為突出[70]。RNN 的主要改進形式為 LSTM[68]和 GRU(Gated recurrent unit)[71]。這些 變體在 RNN 中添加了特殊的“門”結構來判斷資訊的價值,進而模擬人類大腦的記憶和遺忘過程。 在 LSTM 的基礎上,其雙向形式 BiLSTM[72]、基於 Attention 的 BiLSTM[73]相繼被提出。相較於經典 的 RNN[57],LSTM[68]和 GRU[71]可以更有效地對序列進行建模,建立更為精確的語義依賴關係。在合理標注的前提下,RNN 結構在自然語言實體識別任務中已實現了極為出色的工程應用,其典型演算法 為 LSTM+CRF,即通過 LSTM 提取深度特徵,用條件隨機場(Conditional random field,CRF)模型 進行文字序列標註[22]。

  • 面向多模態資料的深度學習

通過上文分析,可以發現深度學習模型具有更好的跨模態適應性。多模態深度學習始於 Ngiam 等發表於 ICML 2011 的《Multimodal Deep Learning》,文中的資料來源為視覺模態(脣語)和音訊模態,其構建的深度學習模型以玻爾茲曼機(Restricted boltzmann machine,RBM)為基本單元,通過對視訊、音訊資料進行編碼、聯合表示、學習和重構,實現對字母、數字的識別[23]。

近年來,已有很多卓有成效的多模態深度學習方法被提出。如文獻[76]在學習機制上進行改良, 即在對訓練集進行學習時,不再構建圖片-句子標籤之間的對映關係,而是將圖片中的物件和句子中 的實體匹配起來,首先對圖片採取目標檢測的任務,進而學習單詞和細粒度影象區域之間的關係,在 此基礎上生成標註句子。這一方式簡化了對 Image-Caption 任務的訓練集標註需求,即從句子簡化為 單詞。文獻[77]結合 LSTM 的特性,構建了能夠對多幅影象或視訊內容進行理解和描述的深度神經網路框架,實現對視覺序列的文字描述。文獻[78]設計了 CNN-LSTM 混合編碼器對資料進行編碼,進 而採用排序損失(Pairwise ranking loss)函式對資料進行訓練。文獻[79]借鑑了在基於 RNN 的機器翻譯任務中的研究進展,用 CNN 替代 RNN 作為圖片的編碼器。在設計模型框架的同時,該文還提出了 得到相關細節描述的概率公式。文獻[80]設計了基於圖片的問答模型,該模型能夠根據 CNN 編碼的 圖片和問題句子,生成正確的問題答案。文獻[81]重點研究了採用 CNN 模型的基於內容的圖片檢索 問題,並分析了深度卷積神經網路對高維語義特徵的有效表達能力。文獻[82]則採用多模態深度學習 框架,通過構建多個 LSTM 結構處理情感分類問題。文獻[83]提出一種多模態無監督機器翻譯方法, 採用描述同一內容的圖片連結跨語種語料,實現語義對應與融合。文獻[84]採用強化學習的手段對文 本和視覺場景進行匹配,進而對自動駕駛決策進行推理。


4 結論與展望

大資料背景下,多模態資料對同一物件的描述存在形式多源異構、內在語義一致的特點。不同的 模態形式分別描述物件在某一特定角度下的特徵。隨著機器學習技術的發展,多模態學習領域的研究 熱點逐漸從經典的統計學習方法轉移到深度學習方法。對於視覺模態,CNN 逐漸成為最有效的特徵表示方法;對於文字模態及相關、類似的序列預測任務,LSTM 也逐漸取代概率圖模型,取得主導地位。而對抗學習的興起使得跨模態任務更為多樣化。

對於多模態學習方法的研究可以從以下幾個方向進一步展開:(1)對不同模態的樣本進行更為精細 化的特徵表示,實現有效的跨模態匹配,利用模態互補構建更為完整的特徵描述體系;(2)克服學習樣 本數量的限制,研究弱監督、無監督的多模態學習方法;針對該問題,對抗學習方法是可行的解決方 案之一;(3)研究有效的模型融合框架,一方面是組合不同的演算法以取得高質量的資料分析結果,另一 方面是用模型融合指導對多模態資料的融合;(4)研究效果更為真實、效能更加穩定的跨模態生成方法;(5)應用背景從通用領域向垂直領域拓展,針對特定的應用場景(如醫療場景)實現可行的解決方案。