【文獻閱讀】2021-ACL-BASS: Boosting Abstractive Summarization with Unified Semantic Graph
原文連結:https://arxiv.org/pdf/2105.12041.pdf
一 背景和意義
Text Summarization(文字摘要)
Summarizationà為給定的輸入文件生成流暢而簡潔的摘要,使用者通過閱讀摘要獲取文章的主要內容。
摘要問題的特點:輸出的文字要比輸入的文字少很多,但卻包含著非常多的有效資訊。
抽取式就是使用演算法從源文件中提取現成的句子作為摘要句組成摘要。
生成式是生成一個序列,通過源文件序列生成摘要序列。
目前,生成式摘要很多都是利用基於深度學習中的seq2seq模型,或者是在以bert為代表的預訓練模型
此外,由於現實中往往缺少標註好的摘要資料,所以有很多工作聚焦在無監督的方式,使用自編碼器等做無監督的生成式摘要。
比較抽取式和生成式摘要,抽取式有時可能無法簡潔凝練地概括原文的內容;而生成式雖然靈活,但是容易產生事實性錯誤,也就是生成出一些與原文相違背的內容。
評測文字生成的方法:BLEU,ROUGE等。他們基本上都是從基本語義單元的匹配上去評測候選摘要和標準摘要之間的相似性。所以在句法語義方面存在問題,評測質量甚至比不上人工。
因此,如何設計一個合適的評測方法,也是目前文字摘要任務的一個研究方向。
Seq2Seq面臨挑戰
在生成式摘要中,Seq2Seq模型
· 複雜的摘要場景,如長文件或多文件摘要(MDS),給 Seq2Seq 模型帶來了巨大的挑戰。
MDS:利用計算機將同一主題下或者不同主題下的多篇文件描述的主要內容通過資訊壓縮技術提煉成一個文件的自然語言處理技術。
· 因為Seq2Seq 模型在主要依賴於長序列的內容選擇和組織方面存在困難。
——如何在複雜的文字輸入中利用深層語義結構是進一步提升摘要效能的關鍵。
·
——有利於全域性結構學習&遠端關係建模
本文主要內容
工作一:提出了聯合語義圖(Unified Semantic Graph)
為了更好的建模長距離關係和全域性結構→→建議應用短語級聯合語義圖來促進內容選擇和組織
該圖聚合了在上下文中分佈的共指短語,以便更好地建模長文件摘要和 MDS 中的長距離關係和全域性結構。
· 適用於藉助共指解析的資訊聚合,這種解析極大地壓縮了輸入並有利於內容選擇。
· 短語之間的關係在組織顯著內容方面起著重要作用
工作二:提出了一種基於圖的編碼器-解碼器模型
基於聯合語義圖,作者進一步提出了一種基於圖的編碼器解碼器模型。通過利用圖結構來改進 Seq2Seq 架構的文件表示和摘要生成過程。
Graph Encode:
· 顯式建模短語之間的關係以及基於語義圖,捕獲全域性結構,從而有效地編碼長序列
· 此外,在圖編碼過程中還應用了幾種圖增強方法,挖掘潛在的語義關係
Graph Decode:
· 利用圖傳播注意力結合圖結構來指導摘要生成過程。這可以幫助選擇顯著內容,並將它們組織成連貫的摘要。
工作三:實驗
實驗結果表明,模型對長文件摘要和 MDS 的自動和人工評估優於幾個強大的baseline,並驗證了基於圖形的模型的有效性。
二 研究方法
聯合語義圖——圖定義
聯合語義圖是定義為 G = (V, E) 的異構圖。節點表示短語,邊表示短語間的依賴解析關係。
· V 中的每個節點都代表一個,從共同指稱短語合併而來的概念。例如,在圖中,節點“Albert Einstein”是從“Albert Einstein”和“he”“his”合併而來的,它們通過共指解析表示同一個人。
根據短語型別, 節點可以分為三種類型: 名詞短語(N)、動詞短語(V)、其他短語(O)。
· 聯合語義圖中的元路徑傳達了各種語義關係。比如說,元路徑 O-N 表示修飾關係,名詞短語之間的元路徑 N-N 表示同位關係或附加關係。
meta-path是連線兩個實體的一條特定的路徑
此外,兩跳元路徑可以表示圖中更復雜的語義關係。 例如,名詞-動詞-名詞結構, [Albert Einstein]-[won]-[the Physics Nobel Prize] 表示 SVO(主語-動詞-賓語)關係。 因此,對一些兩跳元路徑進行建模也至關重要。
聯合語義圖——圖定義
簡單來說,首先將tokens合併到短語中,然後將共同指代的短語合併到節點中,從而從句子中提取短語及其關係。
具體上,首先利用CoreNLP 獲取輸入序列的共指鏈和每個句子的依存樹。基於依存樹,將形成完整語義單元的連續tokens合併為一個短語。然後,將來自不同位置的相同短語和相同共指鏈中的短語合併,形成語義圖中的節點。
(coreNLP是斯坦福大學開發的一套關於自然語言處理的工具,使用簡單功能強大,有命名實體識別、詞性標註、詞語詞幹化、語句語法樹構造還有指代關係等功能。)
基於圖的摘要生成模型——圖編碼器&圖解碼器
下面是作者的基於圖的生成式摘要模型,主要由圖編碼器和圖解碼器組成。
編碼階段:
· 採用一個文件或一組文件的串聯,作為文字輸入,通過文字編碼器對其進行編碼,獲得一系列的本地token表示
· 圖編碼器進一步將聯合語義圖作為圖輸入,並利用圖中的顯式語義關係獲得全域性圖表示。而且還基於幾種圖增強方法,挖掘文字輸入中的隱含語義關係。
解碼階段:
· 圖解碼器利用圖結構通過圖傳播注意力來指導摘要生成,這有助於突出內容的選擇和組織,生成更多資訊和連貫的摘要。
基於圖形的摘要生成模型
圖節點表示是通過在兩步合併中合併token表示來初始化的。圖編碼器對增強的圖結構進行建模。解碼器同時處理token和節點表示,並通過圖傳播注意利用圖結構。
基於圖的摘要生成模型——文字編碼器
按順序表示區域性特徵à預訓練的語言模型 RoBERTa
RoBERTa改進自BERT
BERTà多層Transformer結構的堆疊 BERT利用MLM進行預訓練並且採用深層的雙向Transformer元件(單向的Transformer一般被稱為Transformer decoder,其每一個token(符號)只會attend到目前往左的token。而雙向的Transformer則被稱為Transformer encoder,其每一個token會attend到所有的token。
基於圖的摘要生成模型——圖編碼器
通過文字編碼器獲得token表示之後,進一步對圖結構進行建模來獲得節點表示。作者基於token表示和圖構造中的token-to-node對齊資訊來初始化圖中的節點表示。
初始化後:應用圖編碼層對顯式語義關係特徵進行建模,應用幾種圖增強方法來學習圖傳達的隱式內容。
節點初始化
兩步合併:token合併和短語合併
· token合併:將本地token特徵壓縮並生成為更高級別的短語表示。
· 短語合併:在廣泛的上下文中聚合共同指代的短語,捕獲長距離和跨文件關係。
這兩個合併步驟是通過平均池化來實現的。
圖編碼層
個人理解,圖編碼層參考了Graph2Seq的節點嵌入表示部分。
圖增強
作者為了挖掘隱式資訊,採取了幾種圖增強方法
首先,為了解決原始有向邊不足以學習後向資訊的問題,在圖中新增反向邊和自環邊
· Supernode
作者為了加強圖建模的魯棒性並學習更好的全域性表示,添加了一個特殊的超級節點,與圖中的每個其他節點連線以增加連通性。
· Shortcut Edges
以前的工作表明,CNN在建模多hop關係方面還較弱。然而,長度為 2 的元路徑表示豐富的語義結構,因此需要進一步建模節點之間的兩跳關係。 所以作者在每個節點及其二階鄰居之間添加了快捷邊。
基於圖的摘要生成模型——圖編碼器
token和節點表示有利於不同方面的摘要生成。token表示善於捕捉區域性特徵,而圖形表示提供全域性和生成特徵。所以,為了利用這兩種表示,作者應用一堆基於 Transformer 的圖解碼層作為解碼器。它處理這兩種表示並將它們融合,用來生成摘要。注意,解碼器是同時處理token和節點表示的。
令表示第 (l − 1) 個圖解碼層的輸出中的第 t 個摘要 token表示。
對於圖注意力,作者應用了multi-head attention,其中作為q,節點表示作為k 和 v的:
其中,是引數權重,表示節點 j 到的顯著分數。
作者將全域性圖向量計算為節點值的加權和:。其中,是可學習的引數。
另一邊,計算和token表示之間的multi-head attention,用和前面求全域性圖向量一樣方法求上下文文字向量。
然後,使用一個前饋神經網路(圖融合層)融合連線兩個特徵:
其中,是線性變換引數,是token和圖的混合表示。
在經過 layer-norm 層和前饋層之後,第 l 個圖解碼層的輸出用作下一層的輸入,也用於在最後一層生成第 t 個token。
基於圖的摘要生成模型——圖傳播注意力
作者發現前面的對圖應用multi-head attention時,圖解碼器只線性地關注節點表示,忽略了圖結構。
因此作者提出利用圖傳播注意力,利用圖結構來指導摘要生成過程。通過進一步利用語義結構,解碼器可以更有效地選擇和組織顯著內容。
圖傳播注意力包括兩個步驟:顯著分數預測和分數傳播。
第一步,線性預測每個節點的顯著分數。
應用公式(1)求出multi-head attention作為顯著分數,其中 |v| 是圖中節點的數量,C 是注意力頭的數量。
第二步,通過分數傳播使顯著分數結構化。
因為在每個摘要解碼步驟中,只有部分內容是顯著的。 所以,對於每個節點只在圖中傳播其顯著分數 p 次,最多聚合 p-hop 關係。令表示預測的初始顯著分數,第 p 次傳播後的顯著分數為:
其中,是圖的度歸一化的鄰接矩陣,是顯著分數的傳播概率,ω是向鄰居節點傳播的概率,1 – ω是從初始值重新開始的概率 。把代入公式(2),圖傳播過程也可以表述為:
在顯著分數傳播的 p 步之後,利用節點值的加權和計算圖向量:
然後融合和的輸出來生成第 t 個摘要token,如前所述。
三 實驗
自動評價
資料集:SDS 資料集BIGPATENT和 MDS 資料集WikiSUM
評價指標:ROUGE-1、ROUGE-2、ROUGE-L、BERTScore
與所有基線相比,BASS 在所有四個指標上都取得了很大的改進。
為了分析聯合語義圖如何有益於摘要學習,作者對圖結構進行了消融研究。
在通過完全連線所有節點,去除短語之間的顯式關係後,R-1 指標較明顯的下降了,這表明短語間的關係可以提高生成摘要的資訊量。 進一步去除短語合併後,所有指標的效能都下降,這表明長距離關係有利於摘要的資訊性。
作者還通過消融研究驗證了圖編碼器中的圖增強方法和圖解碼器中的圖傳播注意力的有效性。然後,沒有間隙傳播注意力的實驗結果說明,聯合語義圖的結構也有利於解碼。總體而言,模型的效能在去除捷徑邊緣時下降最多,這表明豐富的潛在資訊有利於總結最後,刪除所有與圖形相關的元件,所有指標的效能都會急劇下降。
· 長度比較
HT 的效能在輸入長度大於 800 後保持穩定。 GraphSum 在 2400 處取得了最好的效能,當輸入長度達到 3000 時其效能開始下降。BASS 的R-1在 3000 處顯著增加。
· 生成性分析
與GraphSum、HT 相比,BASS 生成更多生成摘要,並且比 RoBERTaS2S 更弱。
RoBERTaS2S 通常會生成與上下文無關的內容
人工評價
由於專利資料集 BIGPATENT 包含大量術語並且需要註釋者的專業背景知識,我們選擇 WikiSUM 作為評估資料集。
邀請 2 位註釋者獨立評估不同模型的摘要。註釋者通過考慮以下標準對摘要進行排名來評估摘要的整體質量:
(1)資訊性:摘要是否傳達了輸入的重要和忠實事實?
(2)流暢性:摘要是否流暢、語法、連貫?
(3) 簡潔性:摘要是否簡潔,沒有描述太多細節?
四 總結
在本文中,作者建議利用聯合語義圖來提高用於長文件摘要和 MDS 的神經生成模型的效能。 進一步提出了一個基於圖的編碼器-解碼器模型,利用圖結構來改進文件表示和摘要生成過程。
長文件摘要和 MDS 的實驗表明,作者的模型優於幾個強大的基線,這證明了基於圖的模型的有效性以及統一語義圖對長輸入生成摘要的優越性。
儘管基於神經網路的摘要系統已經取得了顯著成就,但它們仍然不能真正理解語言和語義。所以,作者認為,將語言結構作為先驗知識納入深度神經網路,是幫助總結系統的一種直接有效的方法。
收穫與感悟:
首先,通過這篇文章,我對文字摘要任務有了進一步的認識,瞭解了他們的輸入、輸出、評價方法和被普遍關注的問題(比如,長序列文字摘要生成、語義語法分析、生成摘要的可讀性等)
第二,我初步瞭解了graph2seq等模型,學習了PageRank、ROUGE等概念。
第三,我進一步認識到Graph在一些圖結構問題上的優勢和應用。
第四,通過對本文的BASS模型的學習,對於Encode和Decode模組的改進方法也有了更多的認識。
最後,對於本文的BASS模型,個人學習到了對聯合語義圖去冗餘、長度大於 2 的元路徑處理、圖增強等方面的改進思想。