EMNLP2018 | 騰訊AI Lab深度解讀互動文字理解相關論文
感謝閱讀騰訊AI Lab微訊號第48篇文章。NLP領域三大頂會之一的EMNLP即將舉辦,騰訊AI Lab第2次參與,共16篇文章入選。本文將深度解讀與互動文字理解相關的2篇論文。Enjoy!
人的社會屬性決定了人與人之間的互動已經滲透到日常生活的方方面面,無論是在工作中與同事協作完成既定專案,亦或是到線上平臺上參與公眾討論以實現個人向社會的發聲,互動文字作為互動行為發生的基本載體可謂無處不在。如何讓機器理解互動文字也一直是自然語言處理的重點任務。
然而,相較於常規文字(例如新聞和科學論文)的理解,互動文字的理解任務面臨著更大挑戰,其主要原因來源於互動文字的兩個方面的特質:輪次內文字的簡短性與輪次間互動的複雜性。前者主要追因於互動文字的隨意性與口語化,一個輪次的互動文字往往內容較為簡短,可用於理解與分析的特徵不夠豐富,因此產生了短文字的資料稀疏性問題。後者的發生主要因為輪次的來回和資訊的交換之中導致了複雜的互動結構,整個互動過程的理解對人而言都是一個十分困難的任務,這導致了相關的人工標註困難重重,用於訓練模型的標註資料很難大規模獲得,在構建多語種對話系統時,這個挑戰將變得尤其嚴峻,特別是小語種的人工標註資料通常不易獲取。
針對互動文字的理解,騰訊AI Lab長期以來有著大量的投入,在本次EMNLP當中,分別針對短文字的處理和跨語種對話系統的理解,各有一個重要研究成果公開,它們分別是:
論文 | Topic Memory Networks for Short Text Classification
連結 | https://arxiv.org/abs/1809.03664
論文 | XL-NBT: A Cross-lingual Neural Belief Tracking Framework
連結 | https://arxiv.org/abs/1808.06244
Topic Memory Networks for Short Text Classification解讀
首先是針對短文字分類的Topic Memory Networks for Short Text Classification,這篇論文由騰訊AI Lab主導,與香港中文大學合作完成。本文是主題模型與文字分類在神經網路框架下的一次結合,作為主題模型與深度學習聯合訓練的一個早期的探索,能夠很自然地被擴充套件到很多深度學習任務的上。
短文字分類 (Short Text Classification)
短文字因為其內容簡短、易於閱讀和傳播的特性作為資訊互動的載體廣泛存在,例如新聞標題、社交媒體的資訊、簡訊等等,因此如何讓機器自動而高效地理解短文字一直是自然語言處理的重要任務,而文字分類作為文字理解的基礎任務、能夠服務於大量的下游應用(例如文字摘要、情感分析、推薦系統等等),更是長期以來學術界與工業界關注的焦點。然而,短文字分類任務本身又十分困難,這其中的原因主要來自文字的內容簡短而引起資料稀疏性問題,從而導致了模型分類的時候沒有足夠的特徵進行類別的判斷。為了理解短文字分類的挑戰,表1展示了一個Twitter(推特)上的一個短文字分類例子。
表1
R1和R2都是訓練樣本分別屬於Super Bowl (超級碗)以及New Music Live(新音樂盛典)類別,S是測試樣本屬於New Music Live類別,但是僅僅從給定的11個單詞,很難判斷出S與新音樂盛典的關係。但是R2中wristband(手環)與Bieber(比伯)的共現極大地豐富了wristband的語義,將wristband與New Music Live關聯起來,因為當時Twitter上支援Bieber送手環的活動使得訓練語料中wristband和Bieber在New Music Live類別的tweets中大量共現。如果模型能夠定位到wristband是一個關鍵的詞,就更容易判斷出測試樣本S應該被分類為New Music Live。否則的話,S很有可能被錯誤分類為Super Bowl,因為其與R1大部分的詞都是重合的。
主題記憶網路 (Topic Memory Networks)
Topic Model(主題模型)的要旨是基於詞在文章中的共現關係,從大量的詞彙中找出主題詞(例如S中的wristbands),這部分主題詞在一部分的文章中經常出現,但並不似常用詞一般在大部分文章中都頻繁出現。因為主題詞的這種特性,相較於低頻詞或常用詞,往往能更好地指明文字的類別。因此,過去的工作已經證明,用主題模型學出的主題表示,能夠有效地提高文字分類的效能。然而,目前的大多數文字分類任務在用到主題表示的時候,往往採用兩步走的方法,先訓練好主題模型,然後用主題模型輸出的主題表示去初始化文字分類的特徵空間。近期,Neural Topic Model(神經主題模型:https://arxiv.org/pdf/1706.00359.pdf)的提出,使得主題模型與大量的深度學習任務能夠在多工學習(multi-task learning)的框架下被聯合訓練,本文以深度學習最基礎的任務——文字分類作為這種新的訓練模式的一個初期的探索,提出了一種新的網路模型Topic Memory Networks(主題記憶網路),網路結構如圖1所示。
圖1
主題記憶網路一共可以分為三部分,從左到右分別是Neural Topic Model (神經主題模型)、Topic Memory Mechanism(主題記憶機制)、以及Classifier(文字分類器)。其中,神經主題模型主要用於學習主題表示;主題記憶機制主要用於將學到的主題表示對映到對文字分類有用的特徵空間當中;文字分類器主要用於輸出文字分類標籤,可以適配多種分類器(例如卷積神經網路(CNN)或迴圈神經網路(RNN)),因為CNN在之前的的工作中被證明對文字分類更有效,因此在本文對於主題記憶網路的實驗探索(將於下文重點討論)中,我們選擇CNN作為文字分類器。
為了實現主題模型與文字分類的聯合訓練,主題記憶網路的損失函式為主題模型的訓練目標variational lower-bound以及文字分類器的訓練目標cross-entropy的加權和。
實驗分析
為了探索主題記憶網路對短文字分類的效能,本文選擇了四個基準資料集,分別為:TagMyNews新聞標題、Snippets搜尋片段、Twitter和Weibo(新浪微博),四個資料集的統計資訊如表2所示。
表2
本文選擇了當下最好的短文字分類模型與主題記憶網路的效能進行了比較,在四個實驗資料集的實驗結果如表3所示,從實驗結果中可以看出,主題記憶網路在四個資料集上都顯著提升了state-of-the-art的效能。
表3
考慮到主題記憶網路能夠對主題模型與文字分類進行聯合訓練,那麼主題模型是否能夠獲益於這種多工訓練,以學到更有意義的表示呢?本文對主題模型的輸出進行了定量的分析。在該分析中,被廣泛使用的CV coherence分數 (https://github.com/dice-group/Palmetto) 作為評測指標,比較模型包括經典的主題模型LDA、專門處理短文字的主題模型BTM、以及神經主題模型NTM。越高的CV score說明學到的主題表示越有意義,實驗結果如表4所示,讀者可以觀察到,不僅文字分類可通過聯合學習主題表示獲益(見表 3),通過與文字分類聯合訓練,主題模型也能夠學到更有意義的主題表示。
表4
為了探索為什麼主題記憶網路能取得更好的效能,本文討論了主題記憶網路對錶 1的測試樣例S學到了什麼表示,結果如圖2所示。由結果讀者可以觀察到,與S最相關的三個主題分別與Bieber、追星以及音樂相關。雖然三個主題的相關主題詞大多都不被包含於S當中,但是通過挖掘詞與詞的共現關係,主題模型成功擴充套件了S中主題詞wristband的語義,從而使得S得以被正確分類到New Music Live。
圖2
結語
本文是主題模型與文字分類在神經網路框架下的一次結合,也是主題表示與其他深度學習任務聯合訓練的一個嘗試,希望能夠啟發後續對於主題表示與深度學習的研究與應用。
XL-NBT: A Cross-lingual Neural Belief Tracking Framework 解讀
接下來解讀XL-NBT: A Cross-lingual Neural Belief Tracking Framework這篇關於跨語種對話系統的遷移學習的論文,由加州大學聖芭芭拉分校、騰訊AI Lab和俄亥俄州立大學聯合合作完成。
在任務型對話系統中,狀態跟蹤器的學習對於對話理解至關重要。而學習狀態跟蹤器通常需要從大量的人工標註資料中學習。這一挑戰在多語種對話系統中將更為嚴峻,特別是小語種系統的人工標註資料獲取將更為昂貴。本文主要考慮的問題是如何利用遷移學習將已經學好大語種(如英語)對話狀態跟蹤器遷移至其他小語種,從而無需小語種的標註資料便可以得到效能較好的小語種對話狀態跟蹤器。
本文考慮的任務型對話系統狀態跟蹤器跨語種遷移學習的表述如下圖所示。我們假設源語種(通常是大語種,如英語)有足夠的人工標註資料,可以直接訓練一個較好的狀態跟蹤器。而目標語種通常是小語種,缺乏人工標註資料直接有監督學習狀態跟蹤器。兩個語種之間共享一個底層的任務資料庫。
圖1. 任務型對話系統狀態跟蹤器的跨語種遷移學習。源語種的狀態跟蹤器假設已經訓練完成。目標語種沒有人工標註資料用來做直接的監督學習。兩個語種之間共享一個任務資料庫系統(圖中表格)。
思路
本文提出的遷移學習方法基於的主要思路是利用外部的輔助資料來幫助實現遷移學習。主要考慮的外部資料分為兩種:(i) 平行語料, (ii) 雙語字典。前者假設遷移學習的兩個語種之間存在句子級別的平行語料(如機器翻譯資料),後者假設兩個語種之間只存在雙語字典。需要說明的是前者的平行語料不一定是跟對話系統直接相關的資料。此外,我們修改了之前由(Mrksic et al., 2017)提出的神經網路狀態跟蹤器的網路結構使之在區域性結構上結構(見下面詳細論述)並利用Teacher-Student學習機制實現從源語言狀態跟蹤器遷移至目標語言狀態跟蹤器。
模型
解耦神經網路狀態跟蹤器。本文對之前由(Mrksic et al., 2017)提出的神經網路狀態跟蹤器的網路結構進行解耦,使其能被用於本文的遷移學習需要。解耦後的網路結構如下圖所示。從圖中可以看出,整個狀態跟蹤器主要由兩部分構成:一部分是utterance encoding,主要負責將對話系統中輸入文字編碼。第二部分是Slot-value encoding,主要負責將候選slot-value以及系統應答編碼。解耦成這樣兩部分後,我們將可以用teacher-student學習機制實現遷移學習。
圖2. 解耦後的神經網路狀態跟蹤器網路結構
我們使用teacher-student學習機制來實現從源語言到目標語言的遷移學習。學習的目標是最小化如下函式:
這個目標函式中出現的變數定義如下:
為教師網路的狀態跟蹤器輸入,為學生網路的狀態跟蹤器輸入。這個目標函式刻畫了教師和學生網路對應輸出的均方誤差。我們的目標是使得這兩個網路的輸出儘可能接近使得學生網路的輸出能夠逼近教師網路。然而這個目標函式在我們的問題裡面是無法直接優化的,因為和的並行輸入資料我們通常很難獲取(因為這樣還是需要對目標語種有直接的對話標註資料)。更困難的是我們通常都沒有目標語種的輸入utterance 資料。因為我們通常需要合成或者藉助外部語料來輔助我們生成這樣的資料。在我們這個問題中我們假設了兩個語種之間共享一個任務資料庫,所以和的平行資料通常可以通過合成方法得到。而平行的utterance資料和通常不易獲取,在本文中藉助兩種不同型別的外部輔助資料獲取(平行句子語料和雙語詞典)。從中我們可以看出教師網路和學生網路的輸入需要通過不同方式來獲取,這也是為什麼我們無法直接優化原始的目標函式。為此,我們藉助我們狀態跟蹤器網路的解耦結構,我們提出使用原始目標函式的上界來作為替代目標函式(具體推導過程見論文):
第一部分刻畫的是教師網路和學生網路在utterance encoding上的誤差,第二部分刻畫的是教師網路和學生網路在slot-value decoding上的誤差(見圖2)。對於第一部分我們藉助外部輔助資料學習,第二部分我們利用合成方法生成。這樣解決了上面提到的困難。總體的方法見下圖所示。
圖3. 教師-學生學習機制
針對兩種不同型別的外部輔助資料,我們分別提出了兩種變種:XL-NBT-C和XL-NBT-D。前者針對有平行句子語料情況。後者針對只有雙語字典情況。這兩個變種的圖示如下。
圖4. XL-NBT-C和XL-NBT-D
實驗
我們主要對比了我們的方法和五種不同的基線方法:監督學習、無遷移學習、ontology匹配、翻譯方法以及逐詞翻譯。主要的實驗結果如下面表格所示。可以看出我們提出的方法取得了非常好的遷移學習效果。在論文中給出了更多進一步的實驗分析結果。
表1. 主要實驗結果。所有實驗結果是五次獨立實驗的平均。