1. 程式人生 > 其它 >DART: Open-Domain Structured Data Record to Text Generation 翻譯

DART: Open-Domain Structured Data Record to Text Generation 翻譯

原文連結

介紹

從結構化資料中自動生成文字描述提高了知識庫對普通使用者的可訪問性。這些應用包括向非專家解釋資料記錄,撰寫體育新聞,總結多個文件中的資訊,並生成對話迴應。

資料到文字這個領域依然有很多挑戰:首先,它們採用扁平的資料本體結構,例如資料記錄的槽值對或者表格的扁平形式。這種扁平化的結構不足以在結構化資料的本體中編碼豐富的語義關係,尤其是表,這些語義關係可以利用這些語義知識進一步改進表的表示。其次,一些資料集只關注少量的領域或知識圖,因此提供有限數量的謂詞和資料本體。此外,由於任務的性質和自動生成過程的原因,其中一些演算法在資料輸入和句子之間只存在鬆散的對齊。

為了解決這些問題,我們提出了structured DAta-Record-to-Text(DART),目標是覆蓋維基百科中的多樣的表格,位元定域的資料集要豐富。我們還引入了新的表上的樹本體註釋,它將平面表模式轉換為樹結構的語義框架。

樹本體反映了表模式中的核心和輔助關係,並且自然地跨許多領域出現。因此,DART為從各種資料來源(包括WikiSQL和WikiTableQuestions)提取的樹狀結構語義框架提供高質量的句子註釋。我們評估了DART上的幾種最先進的資料到文字模型,發現儘管這些模型在特定領域上表現很好,但卻由於DART的領域豐富的語義結構而表現不好。

我們的貢獻:

  1. 我們為結構化資料到文字的生成提出了一個很大且開放域的資料集,並把他們轉換成樹結構,這種層級的輸入是我們和其他語料的區別。
  2. 我們對幾個最先進的資料到文字模型進行了基準測試,以表明DART引入了新的泛化挑戰。
  3. 我們證明,使用DART進行資料增強可以提高WebNLG 2017資料集上現有模型的效能。考慮到DART的開放領域特性,我們希望該結果能夠推廣到其他資料到文字的資料集。

資料採集

整體流程如圖1所示,包含了幾個資料集部分。

樹本體與表的句子標註

連通分量提取

這一部分篩選掉一些與無法聯通或聯通錯誤的sample,或者人為進行修改。

句子標註

構建Tripleset Sentence對兒

一個人沒有夢想,和鹹魚有什麼區別!