Logic-Consistency Text Generation from Semantic Parses 翻譯

阿新 • • 發佈：2021-11-03

介紹

自然語言生成指的是從語義解析生成語言描述如邏輯表格、AMR和SQL查詢等格式化的輸入表達，由於它對最新的自然語言互動的可解釋性和使用性的潛在貢獻，這項任務吸引了廣泛的注意。最近，如BERT、T5一樣的大規模預訓練已經提高從規則化文字生成自然語言的能力到了一個在流暢度和連貫性都非常有希望的高度。

然而，從語義解析生成自然語言仍然面臨著兩大關鍵性挑戰：1. 某些型別的邏輯表格或者標註數高成本導致的資料稀疏性限制，根據我們的實驗推斷，這導致很難滿足和維持生成文字的內在複雜的密集的邏輯性；2. 通用的子童話的評估指標，比如BLEU、ROUGE、BLEURT等都不是理想的用來針對性評估邏輯一致性的，因為他們趨向於平均的關注句子中的每一個詞，而不是重點關注那些重要的邏輯性詞。

為了緩解這兩個關鍵問題，我們提出了針對語義解析到文字生成的高保真框架 SNOWBALL，和用來鳴鼓邏輯一致性的自動評估指標 BLEC。

SNOWBALL框架。如圖所示，該框架訓練了兩個模組來確保文字生成的高保真度。

一個生成器模組，用來對映邏輯表到文字。
一個評估器模組，用來計算邏輯一致性分數。

BLEC指標。評估輸入的邏輯表和輸出的句子之間的邏輯一致性。

關鍵contribution：

提出了一種生成器和評估器聯合訓練的框架SNOWBALL。
提出了基於規則的新的自動化評估方法BLEC。
實驗表明上面兩項效果很好。

SNOWBALL

迭代訓練

\(Generator0\)在基準上接受訓練NLG資料集與正常的端到端方法訓練到\(Generator1\)

。
同時，根據給定的規則將種子資料中的邏輯形式轉換為變異形式，然後由\(Generator1\)預測每個變異邏輯形式的文字為一個完整的邏輯對。
初始的\(Evaluator0\)然後在這些增廣邏輯對上進行訓練。

每一輪訓練過程都有三步迭代：

訓練過的\(Evaluator_{i−1}\)可用於對生成器解碼器給出的beam search結果進行重新排序，從而提高增廣邏輯對的質量，增強\(Augment_{i-1}\);
\(Generator_i\)能夠更好地保持邏輯一致性，通過在\(Augmented_{i−1}\)上進行訓練，其中包含了種子資料中發現的更多沒見過的邏輯變化;
增強的\(Generator_i\)

從擾動邏輯形式中預測出越來越逼真的擾動句子，這給\(Evaluator_i\)的訓練集帶來了更多具有挑戰性的負樣本。

生成器

生成器使用預訓練BART結構，包含編碼器結構和解碼器結構，編碼器輸入是能夠認識到邏輯表結構的表達，輸出是文字描述。

評估器

評估器會輸出邏輯表與預測輸出之間的邏輯一致性分數，相比於普通的評估器，這個模型會非常關注細微的邏輯變化，輸入是邏輯表L、文字Q和[EOS]標記，邏輯分數輸出是：

\[\gamma = \sigma (w([h_{d_1}, h_{d_2}\cdots])) \]

其中\(h_{d_n}\)是解碼器最後的隱藏層，\(w\)表示最大池化。

資料增強

資料增強方法通過擾動邏輯表的邏輯來生成新的邏輯樣式。

邏輯擾動

邏輯擾動擾動邏輯表格的邏輯，再通過擾動的表格生成新的文字。擾動規則是手動定義的：

邏輯轉變：如把肯定句變成否定句。
短語和數字轉變。
屍體插入、刪除或者交換。

通過擾動的邏輯表進行推理

用預訓練的seq2seq類模型訓練效果會比基於規則的方法更加流暢和連貫，雖然這樣可以獲得大量的資料，但是它的標註依然會引入噪音。

資料構成

增強的[perturbed logic, pertubed text]既是生成器的訓練樣例，也是評估器的正樣例，而[pertubed logic, seed text]和[seed logic, pertubed text]是評估器負樣本。

結構感知編碼器

結構感知的輸入格式不僅能夠得到文字中的序列性資訊，也可以得到邏輯表的內在結構資訊，此外，來自不同領域或資料集的邏輯形式在關鍵字上可能存在差異，因此將它們規範化為統一的形式可以彌合不同邏輯之間的差距從而提高了框架的泛化能力。因此，邏輯形式將首先逐字翻譯成統一的中間半文字形式，由人工註釋詞典。然後將括號插入到半文字形式中，以表示相關的結構化表示(如ast)的層次結構。

邏輯一致性評估的BLEC

Bidirectional Logic Evaluation of Consistency。關鍵想法是關注於在邏輯評估領域的一些邏輯關鍵詞。首先BLEC將問題中的一些關鍵詞匹配邏輯表中的詞，然後，根據匹配結果計算分數。

\[BLEC=\frac{\sum_{inS} match(s)}{|S|} \]

試驗結果表明，BLEC表現出了和人類標註較高的皮爾遜相關係數。

一個人沒有夢想，和鹹魚有什麼區別！

Logic-Consistency Text Generation from Semantic Parses 翻譯

介紹自然語言生成指的是從語義解析生成語言描述如邏輯表格、AMR和SQL查詢等格式化的輸入表達，由於它對最新的自然語言互動的可解釋性和使用性的潛在貢獻，這項任務吸引了廣泛的注意。最近，如BERT、T5一樣的大規模

Logic2Text: High-Fidelity Natural Language Generation from Logical Forms 翻譯

原文連線介紹結構化資料自然語言生成在很多應用中都是重要的研究領域，最近的資料驅動方法在自然語言生成領域已經取得了很好的表現。然而，大多數研究都關注於簡單記錄的淺層描述，比如，非常有限或固定模式下的屬

DART: Open-Domain Structured Data Record to Text Generation 翻譯

原文連結介紹從結構化資料中自動生成文字描述提高了知識庫對普通使用者的可訪問性。這些應用包括向非專家解釋資料記錄，撰寫體育新聞，總結多個文件中的資訊，並生成對話迴應。

De-Confounded Variational Encoder-Decoder for LogicalTable-to-Text Generation

原文地址介紹資料到文字的生成方法指的是從非文字的輸入中生成描述性文字的任務。輸入種類不同，任務可以定義地更加明確，比如摘要資訊生成文字，資訊框生成文字，圖生成文字。

深度學習論文翻譯解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

論文標題：Rich feature hierarchies for accurate object detection and semantic segmentation 　　標題翻譯：豐富的特徵層次結構，可實現準確的目標檢測和語義分割

RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds翻譯和解讀

RandLA-Net: 大場景下點雲的有效語義分割本文是2020.5月份刊出的文章，發在2020CVPR

DDRG翻譯.Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

摘要由於場景文字的多樣性和複雜性，任意形狀文字檢測是一項具有挑戰性的任務。在本文中，我們提出了一種新穎的統一關係推理圖網路用於任意形狀的文字檢測。在我們的方法中，一個獨創的區域性圖構建了文字

論文筆記2：Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

文章連結：https://arxiv.org/abs/2012.15840 1 引言傳統的語義分割模型一般採用全卷積神經網路的設計，使用編解碼結構。受限於CNN感受野過小，無法學習長程依賴資訊，故而使用空洞卷積或者添加註意力模組的方法增

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text 2021-07-22 08:54:20

Extracting COVID-19 diagnoses and symptoms from clinical text: A new annotated corpus and neural event extraction framework

從臨床文字中提取COVID-19診斷和症狀:一個新的標註語料庫和神經事件提取框架

Logic-Consistency Text Generation from Semantic Parses 翻譯

介紹

SNOWBALL

迭代訓練

生成器

評估器

資料增強

邏輯擾動

通過擾動的邏輯表進行推理

資料構成

結構感知編碼器

邏輯一致性評估的BLEC

Logic-Consistency Text Generation from Semantic Parses 翻譯

Logic2Text: High-Fidelity Natural Language Generation from Logical Forms 翻譯

DART: Open-Domain Structured Data Record to Text Generation 翻譯

De-Confounded Variational Encoder-Decoder for LogicalTable-to-Text Generation

深度學習論文翻譯解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds翻譯和解讀

DDRG翻譯.Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

論文筆記2：Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Extracting COVID-19 diagnoses and symptoms from clinical text: A new annotated corpus and neural event extraction framework

【論文翻譯】Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory

How to remove leading zeros from alphanumeric text?

【Medium翻譯】Java抽象類有什麼用？

【翻譯】為Rust應用快速地構建體積小的映象

Quartz官方教程翻譯系列-Lesson 3

[Flutter翻譯]使用Flutter編寫Flutter開發者的新工具

【翻譯】【Go】Go Modules的用法

MySQL索引型別Normal、Unique和Full Text的講解

MySQL中欄位型別char、varchar和text的區別

優化InnoDB表BLOB,TEXT列的儲存效率

Logic-Consistency Text Generation from Semantic Parses 翻譯

介紹

SNOWBALL

迭代訓練

生成器

評估器

資料增強

邏輯擾動

通過擾動的邏輯表進行推理

資料構成

結構感知編碼器

邏輯一致性評估的BLEC

相關推薦