1. 程式人生 > 實用技巧 >ACM MM頂會論文 | 對話任務中的“語言-視覺”資訊融合研究

ACM MM頂會論文 | 對話任務中的“語言-視覺”資訊融合研究


總第416篇

2020年 第40篇

目標導向的視覺對話是“視覺-語言”交叉領域中一個較新的任務,它要求機器能通過多輪對話完成視覺相關的特定目標。該任務兼具研究意義與應用價值。

日前,北京郵電大學王小捷教授團隊與美團AI平臺NLP中心團隊合作,在目標導向的視覺對話任務上的研究論文《Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue-commentCZ》被國際多媒體領域頂級會議ACM MM2020錄用。

該論文分享了在目標導向視覺對話中的最新進展,即提出了一種響應驅動的視覺狀態估計器(Answer-Driven Visual State Estimator,ADVSE)用於融合視覺對話中的對話歷史資訊和圖片資訊,其中的聚焦注意力機制(Answer-Driven Focusing Attention,ADFA)能有效強化響應資訊,條件視覺資訊融合機制(Conditional Visual Information Fusion,CVIF)用於自適應選擇全域性和差異資訊。該估計器不僅可以用於生成問題,還可以用於回答問題。在視覺對話的國際公開資料集GuessWhat?!上的實驗結果表明,該模型在問題生成和回答上都取得了當前的領先水平。

背景

一個好的視覺對話模型不僅需要理解來自視覺場景、自然語言對話兩種模態的資訊,還應遵循某種合理的策略,以儘快地實現目標。同時,目標導向的視覺對話任務具有較豐富的應用場景。例如智慧助理、互動式拾取機器人,通過自然語言篩查大批量視覺媒體資訊等。

圖1 目標導向的視覺對話

研究現狀及分析

為了進行目標導向的和視覺內容一致的對話,AI智慧體應該能夠學習到視覺資訊敏感的多模態對話表示以及對話策略。對話策略學習的相關工作有很多,如Strub等人[1]首先提出使用強化學習來探索對話策略,隨後的工作則著重於獎勵設計[2,3]或動作選擇[4,5]。但是,它們中的大多數採用了一種簡單的方式來表示多模態對話,分別編碼兩個模態資訊,即由RNN編碼的語言特徵和由預訓練CNN編碼的視覺特徵,並將它們拼接起來。

好的多模態對話表示是策略學習的基石。為了改進多模態對話的表示,研究者們提出了各種注意機制[6,7,8],從而增強了多模態互動。儘管已有工作取得了許多進展,但是還存在一些重要問題。

  1. 在語言編碼方面,現有方法的語言編碼方式都不能對不同的響應(Answer)進行區分,Answer通常只是附在Question後面編碼,由於Answer只是Yes或No一個單詞,而Question則包含更長的詞串,因此,Answer的作用很微弱。但實際上,Answer的回答很大程度決定了後續影象關注區域的變化方向,也決定了對話的發展方向,回答是Yes和No會導致完全不同的發展方向。例如圖1中通過對話尋找目標物體的示例,當第一個問題的答案“是花瓶嗎?”為“是”,則發問者繼續關注花瓶,並詢問可以最好地區分多個花瓶的特徵;當第三個問題的答案“部分為紅色嗎?”為“否”,則發問者不再關注紅色的花瓶,而是詢問有關剩餘候選物體的問題。

  2. 在視覺以及融合方面的情況也是類似,現有的視覺編碼方式或者採用靜態編碼在對話過程中一直不變,直接和動態變化的語言編碼拼接,或者用QA對編碼引導對視覺內容的注意力機制。因此,也不能對不同的Answer進行有效區分。而如前所述,當Answer回答不同時,會導致影象關注區域產生非常不同的變化,一般地,當回答為“是”時,影象會聚焦於當前物件,進一步關注其特點,當回答為“否”時,可能需要再次關注影象整體區域去尋找新的可能候選物件。

響應驅動的視覺狀態估計器

為此,本文提出一個響應驅動的視覺狀態估計器,如下圖2所示,新框架中包含響應驅動的注意力更新(ADFA-ASU)以及視覺資訊的條件融合機制(CVIF)分別解決上述兩個問題。

圖2 響應驅動的視覺狀態估計器框架圖

響應驅動的注意力更新首先採用門限函式極化當前輪次Question引導的注意力,隨後基於對該Question的不同Answer進行注意力反轉或保持,得到當前Question-Answer對對話狀態的影響,並累積到對話狀態上,這種方式有效地強調了Answer對對話狀態的影響;CVIF在當前QA的指導下融合影象的整體資訊和當前候選物件的差異資訊,從而獲得估計的視覺狀態。

答案驅動的注意力更新(ADFA-ASU)

視覺資訊的條件融合機制(CVIF)

響應驅動的視覺狀態估計器用於問題生成和回答

ADVSE是面向目標的視覺對話的通用框架。因此,我們將其應用於GuessWhat ?!中的問題生成(QGen)和回答(Guesser)建模。我們首先將ADVSE與經典的層級對話歷史編碼器結合起來以獲得多模態對話表示,而後將多模態對話表示與解碼器聯合則可得到基於ADVSE的問題生成模型;將多模態對話表示與分類器聯合則得到基於ADVSE的回答模型。

圖3 響應驅動的視覺狀態估計器用於問題生成和回答示意圖

在視覺對話的國際公開資料集GuessWhat?!上的實驗結果表明,該模型在問題生成和回答上都取得了當前的領先水平。我們首先給出了ADVSE-QGen和ADVSE-Guesser與最新模型對比的實驗結果。

此外,我們評測了聯合使用ADVSE-QGen和ADVSE-Guesser的效能。最後,我們給出了模型的定性分析內容。我們模型的程式碼即將可從ADVSE-GuessWhat獲得。

表1 QGen任務效能對比,評測指標為任務成功率

表2 Guesser任務效能對比,評測指標為錯誤率

圖4 問題生成過程中響應驅動的注意力轉移樣例分析

圖5 ADVSE-QGen對話生成樣例

總結

本論文提出了一種響應驅動的視覺狀態估計器(ADVSE),以強調在目標導向的視覺對話中不同響應對視覺資訊的重要影響。首先,我們通過響應驅動的集中注意力(ADFA)捕獲響應對視覺注意力的影響,其中是保持還是移動與問題相關的視覺注意力由每個回合的不同響應決定。

此外,在視覺資訊的條件融合機制(CVIF)中,我們為不同的QA狀態提供了兩種型別的視覺資訊,然後依情況地將它們融合,作為視覺狀態的估計。將提出的ADVSE應用於Guesswhat?!中的問題生成任務和猜測任務,與這兩個任務的現有最新模型相比,我們可以獲得更高的準確性和定性結果。後續,我們還將進一步探討同時使用同源的ADVSE-QGen和ADVSE-Guesser的潛在改進。

參考文獻

[1]FlorianStrub,HarmdeVries,JérémieMary,BilalPiot,AaronC.Courville,and Olivier Pietquin. 2017. End-to-end optimization of goal-driven and visually grounded dialogue systems. In Joint Conference on Artificial Intelligence.

[2] Pushkar Shukla, Carlos Elmadjian, Richika Sharan, Vivek Kulkarni, Matthew Turk, and William Yang Wang. 2019. What Should I Ask? Using Conversationally Informative Rewards for Goal-oriented Visual Dialog.. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for ComputationalLinguistics,Florence,Italy,6442–6451. https://doi.org/10.18653/v1/P19-1646

[3] JunjieZhang,QiWu,ChunhuaShen, JianZhang, JianfengLu, andAntonvanden Hengel. 2018. Goal-Oriented Visual Question Generation via Intermediate Re- wards. In Proceedings of the European Conference on Computer Vision.

[4] Ehsan Abbasnejad, Qi Wu, Iman Abbasnejad, Javen Shi, and Anton van den Hengel. 2018. An Active Information Seeking Model for Goal-oriented Vision- and-Language Tasks. CoRR abs/1812.06398 (2018). arXiv:1812.06398 http://arxiv.org/abs/1812.06398.

[5] EhsanAbbasnejad, QiWu,JavenShi, andAntonvandenHengel. 2018. What’sto Know? Uncertainty as a Guide to Asking Goal-Oriented Questions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4150–4159.

[6] Chaorui Deng, Qi Wu, Qingyao Wu, Fuyuan Hu, Fan Lyu, and Mingkui Tan. 2018. Visual Grounding via Accumulated Attention. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 7746–7755.

[7] Tianhao Yang, Zheng-Jun Zha, and Hanwang Zhang. 2019. Making History Matter: History-Advantage Sequence Training for Visual Dialog. In Proceedings of the IEEE International Conference on Computer Vision. 2561–2569.

[8] BohanZhuang, QiWu, ChunhuaShen,IanD. Reid,andAntonvandenHengel. 2018. Parallel Attention: A Unified Framework for Visual Object Discovery Through Dialogs and Queries. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4252–4261.

作者簡介

本文作者包括王小捷、徐子彭、馮方向、楊玉樹、江會星、王仲遠等等,他們來自北京郵電大學人工智慧學院智慧科學與技術中心與美團搜尋與NLP中心團隊。

王小捷

在北京航空航天大學獲得博士學位,日本奈良先端科學技術大學院大學訪問學者。現為北京郵電大學人工智慧學院教授,博士生導師,智慧科學與技術中心主任,教育部資訊網路工程研究中心副主任,北京郵電大學人工智慧學科和專業負責人,中國人工智慧學會自然語言理解專委會主任、教育工作委員會副主任。主要研究方向為自然語言處理與多模態計算,主持和參與國家級科研專案二十餘項,發表學術論文200餘篇,曾獲中國發明協會科技發明成果一等獎。

---------- END ----------

招聘資訊

美團搜尋與NLP部,長期招聘搜尋、對話、NLP演算法工程師,座標北京/上海,感興趣的同學可投遞簡歷至:[email protected](郵件標題請註明:搜尋與NLP部)。

也許你還想看

|MT-BERT在文字檢索任務中的實踐

|BERT在美團搜尋核心排序的探索和實踐

|美團BERT的探索和實踐