1. 程式人生 > 實用技巧 >論文淺嘗 - AAAI2020 | 多模態基準指導的多模態自動文摘

論文淺嘗 - AAAI2020 | 多模態基準指導的多模態自動文摘

論文筆記整理:劉雅,天津大學碩士。


連結:

https://aaai.org/ojs/index.php/AAAI/article/view/6525


動機

近年來,隨著計算機視覺以及自然語言處理技術的發展,多模態自動文摘技術逐漸成為學術界和工業界研究的熱點。當前的多模態自動文摘受限於資料集本身的原因只能採用文字模態的負對數似然損失作為目標函式訓練整個網路,同時利用注意力機制來輔助挑選圖片。這種做法容易帶來模態偏差的問題,即整個網路會傾向於優化文字生成的質量而忽視了圖片的挑選過程。該論文提出了多模態基準指導的多模態自動文摘方法。基本想法是優化多模態摘要訓練的目標函式,即在文字損失的基礎上增加圖片選擇的損失函式。


亮點

論文亮點主要包括:

(1)提出一種新的評估指標,該論文是第一個從資訊完整性的角度評估多模式摘要的方法,該方法學習了模型摘要和參考摘要的聯合多模式表示形式。包含資訊完整性的評估指標與人類判斷的相關性更好。

(2)提出一種多模態損失函式,以多模態參考為指導,以利用摘要生成和圖象選擇中的損失


概念及模型

該方法由三部分組成:

  • 首先利用資料集本身的特徵將只有文字基準的訓練資料擴充套件至多模態基準,主要採用兩種方式,即直接使用輸入圖片的順序對圖片進行排序或者使用圖片的文字描述與標準文字摘要參考答案之間的ROUGE值大小對輸入圖片進行排序。

  • 在模型上新增圖片判別器用於訓練圖片挑選的過程,模型的損失函式也由文字的損失函式及圖片挑選的損失函式加權求和而成。

  • 通過資料集中的圖片和文字描述構造文字-圖片對齊片段從而用來訓練能夠更好地評價多模態片段的評價模型,具體而言論文將兩對圖片-描述的文字部分(或影象部分)進行交換去構造兩個匹配的多模態片段。

模型整體框架如下:

多模態匹配片段構造示意圖如下:

多模態目標函式

為了在訓練中利用多峰參考,論文提出了一種多峰目標函式,該函式除了考慮文字摘要的負對數似然損失外,還考慮了影象選擇的交叉熵損失。論文將多模態摘要分解為兩個任務:摘要生成和文字影象關係識別。為此,論文提出了一種影象識別器來指導影象選擇。影象鑑別器將確定影象是否與文字內容有關。我們應用多工學習來同時訓練兩個子任務。在多工設定中,共享兩個子任務的文字編碼器和摘要解碼器。論文使用另一個圖片解碼器將全域性圖象特徵g轉化為g’.

可以通過兩種方式顯示文字資訊:(1)文字編碼器的最後一個隱藏狀態;或(2)摘要解碼器的最後隱藏狀態。為了將兩個向量投影到一個聯合語義空間中,論文使用兩個具有ReLU啟用功能的多層感知器將文字向量和視覺向量轉換為Itxt和Ivis。圖象和文字資訊之間的相關性可以表示為:

影象分為文字相關和非文字相關,這意味著可以將文字-影象關係識別視為分類任務。因此,論文采用了交叉熵損失:

其中PA(img)表示影象的實際概率分佈(如果選擇排名前k位的影象作為目標,則影象的概率為1 / k。)。最後,將交叉熵損失(由超引數λ加權)新增到摘要生成的損失函式中,以產生一個同時考慮了文字參考和影象參考的新損失函式:

聯合多模態表示

在跨模式檢索中,輸入是一對影象和一個文字。但是在該論文提出的模型中,輸入變成一對多模態分段(ma,mb),其中ma =(Imagea,Texta)和mb =(Imageb,Textb)。關鍵問題是如何構建訓練資料。MSMO資料集中有很多影象字幕對,並且假定每個影象都與相應的字幕相匹配。因此,通過交換兩個影象標題對的影象(或文字)以獲得匹配的多模態分段對(ma*,m*b),其中m*a =(Imageb,Texta)和m*b =(Imagea ,Textb)。值得注意的是,由於m*b中的Imagea與m*a中的Texta相匹配,而m*a中的Imageb與m*b中的Textb相匹配,因此m*a在語義上與m*b相匹配對影象和文字進行編碼,然後使用多模式注意力機制融合文字向量和影象特徵。最後模型是在一個新的最大利潤率損失下訓練的:

其中(m,m *)是匹配的多模態分段對,(m,)是從批次中取樣的負對。論文還使用MSMO資料集中的影象字幕對構造訓練資料。


理論分析

實驗

目前多模態自動文摘的資料集還比較匱乏,這項工作在MSMO資料集上進行實驗驗證。一般圖文式摘要的評價關注三個方面的指標:圖片準確率(IP)、文字摘要的ROUGE值(ROUGE-L)以及系統輸出中圖片文字的相關度(Msim)。該論文引入一個新的自動評價指標MRmax用來直接度量兩個多模態資訊之間的相似度(輸出和參考答案的最大相似度)。MMAE是對IP、ROUGE和Msim的組合,MMAE++是IP、ROUGE、Msim和MRmax四個自動評價指標的組合。利用與人工打分之間的相關度來對比不同的自動評價指標。

下表給出了不同的自動評價指標與人工打分的相關度,可以看出融入了直接測量多模態片段的評價指標MR之後,新的自動評價模型MMAE++相比於MMAE在與人工打分的相關度上有一個顯著的提升。為了衡量論文提出的多模態基準指導的模型,論文同多個強基線模型進行了對比,包括融入全域性或者區域性視覺特徵的多模態注意力機制的生成式自動文摘模型(ATG、ATL)、層次化的多模態自動文摘模型(HAN)以及基於圖模型的抽取式自動文摘模型(GR)

下表給出了不同模型生成的圖文式摘要的質量對比,可以看出在引入多模態基準指導後,模型的圖片挑選質量(IP)得到了顯著的改善,並且文字生成質量也有略微改進,從而生成更高質量的圖文摘要。相對於使用編碼器隱層狀態而言,採用解碼器隱層狀態去進行圖片選擇效果會更好。另一方面,使用圖片描述與文字摘要之間ROUGE值的大小對圖片排序獲得的多模態基準對於模型的指導作用更加明顯。

同時,本論文也對比了不同的圖片選擇損失函式權重對於模型效能的影響,可以看到當圖片和文字的損失函式的權重都相同時,圖文摘要的質量是最好的。

論文對比了在計算圖片損失中考慮的圖片數量(即top-K圖片作為gold standard)所帶來的影響,並且發現當 K=3的時候,模型取得了最好的效果。

總結

在本文中,論文著重於通過提出一種多模式目標函式來改進多模式摘要,該目標函式同時考慮了文字摘要生成的負對數似然損失和影象選擇的交叉熵損失。實驗表明,該模型可以在真實的人工標記測試集和自動構建的測試集上提高多模式輸出的質量。



OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點選閱讀原文,進入 OpenKG 部落格。