1. 程式人生 > 其它 >De-Confounded Variational Encoder-Decoder for LogicalTable-to-Text Generation

De-Confounded Variational Encoder-Decoder for LogicalTable-to-Text Generation

原文地址

介紹

資料到文字的生成方法指的是從非文字的輸入中生成描述性文字的任務。輸入種類不同,任務可以定義地更加明確,比如摘要資訊生成文字,資訊框生成文字,圖生成文字。

在這些任務中,我們關注邏輯表到文字的生成任務,這項任務旨在從表格生成流暢的但是邏輯正確的文字。而邏輯推理是一種高階的智慧,這對現實中的文字生成系統時比較困難的。現實中的句子往往表達的是邏輯推理資訊,這些資訊在表格中並不會顯式地出現。所以,資料驅動的模型往往生成語義流暢但是邏輯不正確的文字。最近的關於這項任務的研究主要在預使用像GPT-2一樣的預訓練模型,它們相比於沒有預訓練的模型表現出了更加優秀的效果。

然而,預訓練語言模型能否正確捕捉到邏輯資訊還存在爭議,因為預訓練語言模型比如BERT經常會使用虛假的統計資訊來進行推理。一個潛在的挑戰不是在於是否使用預訓練模型,而是表格與文字之間的表層虛假關聯比因果相關性更容易捕捉。比如,我們觀察了一個在與GPT-2相關的模型生成了“The al-bum was released in the United States 2 time”,然而實際上應該是在英國而不是美國。在訓練階段,模型可能可以通過表層的相關性減少損失,而沒有關注選擇的實體。因此,在推理階段,模型可能會產生錯誤的預測。

在這篇文章中,我們從因果推理的角度來看待邏輯表到文字的生成,並提出了一個解混雜的變分編碼器-解碼器(DCVED),首先,給定表格-句子對\((x, y)\),我們假設混淆因子\(Z_c\)存在於一個不可觀測的空間,並且產生了表層的相關性(比如“美國”和“英國”)。我們基於變分推斷來評估潛在空間的\(Z_c\),並且使用皮埃爾的do運算來學習目標\(p(y|do(x))\),而不是\(p(y|x)\)。然後,我們提出了一個後向預測的流程來確保潛在混淆因子\(Z_c\)可以預測沒有使用的實體但是卻恰好與選擇的實體語法相似。我們也考慮將選擇的實體作為我們混淆結構模型的中介。最後,因為我們變分模型可以生成多種備選句子,我們訓練了一個表格-文字選擇器來尋找針對表格的最佳文字。一系列的擴充套件實驗說明我們的模型在兩個邏輯表到文字的資料集上的邏輯保真度達到了新的SOTA效果。

我們這篇工作的主要貢獻如下:

  • 我們提出使用變分推斷來評估潛在空間的混淆因子,並且讓黑箱預測的潛在變數變得有意義。
  • 我們提出了一個生成然後選擇的正規化,它聯合地考慮淺層和邏輯層面的保真度,可以看作是強化學習的一種替代方法。
  • 實驗說明了我們的模型無論是否預訓練,都在兩個邏輯表格-文字的資料集上得到了SOTA的效果。

背景

在介紹我們的模型之前,我們簡要的介紹一下VAE,這是一個生成模型,可以從一個連續空間生成高維的樣例。在概率模型框架中,資料\(x\)的概率可以這樣計算:

\[p(x) = \int p(x, z) dz = \int p(z)p(x|z) dz \] 一個人沒有夢想,和鹹魚有什麼區別!