DART: Open-Domain Structured Data Record to Text Generation 翻譯

阿新 • • 發佈：2021-11-06

介紹

從結構化資料中自動生成文字描述提高了知識庫對普通使用者的可訪問性。這些應用包括向非專家解釋資料記錄，撰寫體育新聞，總結多個文件中的資訊，並生成對話迴應。

資料到文字這個領域依然有很多挑戰：首先，它們採用扁平的資料本體結構，例如資料記錄的槽值對或者表格的扁平形式。這種扁平化的結構不足以在結構化資料的本體中編碼豐富的語義關係，尤其是表，這些語義關係可以利用這些語義知識進一步改進表的表示。其次，一些資料集只關注少量的領域或知識圖，因此提供有限數量的謂詞和資料本體。此外，由於任務的性質和自動生成過程的原因，其中一些演算法在資料輸入和句子之間只存在鬆散的對齊。

為了解決這些問題，我們提出了structured DAta-Record-to-Text（DART），目標是覆蓋維基百科中的多樣的表格，位元定域的資料集要豐富。我們還引入了新的表上的樹本體註釋，它將平面表模式轉換為樹結構的語義框架。

樹本體反映了表模式中的核心和輔助關係，並且自然地跨許多領域出現。因此，DART為從各種資料來源(包括WikiSQL和WikiTableQuestions)提取的樹狀結構語義框架提供高質量的句子註釋。我們評估了DART上的幾種最先進的資料到文字模型，發現儘管這些模型在特定領域上表現很好，但卻由於DART的領域豐富的語義結構而表現不好。

我們的貢獻：

我們為結構化資料到文字的生成提出了一個很大且開放域的資料集，並把他們轉換成樹結構，這種層級的輸入是我們和其他語料的區別。
我們對幾個最先進的資料到文字模型進行了基準測試，以表明DART引入了新的泛化挑戰。
我們證明，使用DART進行資料增強可以提高WebNLG 2017資料集上現有模型的效能。考慮到DART的開放領域特性，我們希望該結果能夠推廣到其他資料到文字的資料集。

資料採集

整體流程如圖1所示，包含了幾個資料集部分。

樹本體與表的句子標註

連通分量提取

這一部分篩選掉一些與無法聯通或聯通錯誤的sample，或者人為進行修改。

句子標註

構建Tripleset Sentence對兒

一個人沒有夢想，和鹹魚有什麼區別！

DART: Open-Domain Structured Data Record to Text Generation 翻譯

原文連結介紹從結構化資料中自動生成文字描述提高了知識庫對普通使用者的可訪問性。這些應用包括向非專家解釋資料記錄，撰寫體育新聞，總結多個文件中的資訊，並生成對話迴應。

De-Confounded Variational Encoder-Decoder for LogicalTable-to-Text Generation

原文地址介紹資料到文字的生成方法指的是從非文字的輸入中生成描述性文字的任務。輸入種類不同，任務可以定義地更加明確，比如摘要資訊生成文字，資訊框生成文字，圖生成文字。

Improving Open Set Domain Adaptation Using Image-to-Image Translation學習筆記

Improving Open Set Domain Adaptation Using Image-to-Image Translation學習筆記目錄Improving Open Set Domain Adaptation Using Image-to-Image Translation學習筆記abstract1.INTRODUCTION2.OUR APPROACH2.1Pr

關於表格的文字生成：Table-to-Text

我研究了3個例子：北京大學的wiki2bio、谷歌的ToTTo、微軟的WIKITABLETEXT 北京大學的wiki2bio

ERROR 1118 (42000): Row size too large (＞ 8126). Changing some columns to TEXT or BLOB may help. In

技術標籤：筆記 ERROR 1118 (42000): Row size too large (> 8126). Changing some columns to TEXT or BLOB may help. In current row format, BLOB prefix of 0 bytes is stored inline.解決方案：進入mya

各大廠的語音識別Speech To Text API使用體驗

最近發現有聲讀物能極大促進我的睡眠，但每個前面都有一段開場語，想把它剪掉，但是有多個開場語，所以就要用到語音識別判斷一下再剪。

SpatialNLI: A Spatial Domain Natural Language Interface to Databases Using Spatial Comprehension論文學習

研究背景 Due to the idiosyncrasy and expressiveness of the spatial semantics, it is unfeasible to adopt general NLI for the spatial domain directly. The challenge of adopting the existing general dom

Record.ToTable記錄到表Table.FromRecords/Record.To…（Power Query 之 M 語言）

資料來源：任意記錄目標：記錄轉表操作過程：選取記錄（預設選取狀態）》【記錄工具轉換】》【到表中】

Structured data representation of python

Structured data https://databricks.com/blog/2017/02/23/working-complex-data-formats-structured-streaming-apache-spark-2-1.html

論文：BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision

題目：BOND：半監督的BERT開放域命名實體識別(2020年6月論文) 原文連結：https://arxiv.org/pdf/2006.15509

Logic-Consistency Text Generation from Semantic Parses 翻譯

介紹自然語言生成指的是從語義解析生成語言描述如邏輯表格、AMR和SQL查詢等格式化的輸入表達，由於它對最新的自然語言互動的可解釋性和使用性的潛在貢獻，這項任務吸引了廣泛的注意。最近，如BERT、T5一樣的大規模

12C RAC 故障分析 - ORA-17503: ksfdopn:2 Failed to open file +DATA/EIC1/PASSWORD/pwdeic1.256.957086685

一、故障描述 Oracle 12CPDBS（PDB NAME = WRYPC）在note1節點上是MOUNTED狀態，在note2節點上是READ WRITE狀態。note1節點上啟動該PDB長時間無反應hang住，並且伴有日誌報錯。

How to use Datasets and DataLoader in PyTorch for custom text data

ref: https://towardsdatascience.com/how-to-use-datasets-and-dataloader-in-pytorch-for-custom-text-data-270eed7f7c00

Too many open files after upgrade to Spring Boot 2.2.8

最近新專案採用最新的 Spring Boot 2.2.8.RELEASE 版本，但是釋出到部署環境後，提示 Too many open files 的錯誤。

NHibernate.HibernateException:“Unable to locate persister for the entity named 'Domain.Entity.LeaseUser'. - The mapping for 'Domain.Entity.LeaseUser' was not added to the NHibernate co

在使用NHiberanter，建立一個session上下文，進行語句執行時，出現了標題所示錯誤。控制檯呼叫程式碼如下：

Use SQL to Query Data from CDS and Dynamics 365 CE

from :https://powerobjects.com/2020/05/20/use-sql-to-query-data-from-cds-and-dynamics-365-ce/ Have you ever wanted to use T-SQL to query Dynamics 365 Customer Engagement (CE) or CDS data from a cloud

How to change any text to Proper Case and Sentence case using tr?

According tohttps://caseconverter.com/ “Upper Case” WHICH CONVERTS ALL THE LETTER INTO CAPITALS LIKE THIS.

Connection open error . Authentication to host xxx' for user 'aa' using method 'mysql_native_password' failed with message: Access denied for user 'aaa' (using password:

一，在netcore中，我們使用容器講上下文保持全域性唯一的時候，非同步大併發查mysql，就會導致報以上的異常，這個是什麼原因導致的呢？

開放集域適應（Open Set Domain Adaptation）

開放集域適應（Open Set Domain Adaptation）閱讀論文：Open Set Domain Adaptation （http://openaccess.thecvf.com/content_ICCV_2017/papers/Busto_Open_Set_Domain_ICCV_2017_paper.pdf）

報錯：Zookeeper Unable to open socket to localhost/0:0:0:0:0:0:0:1:2181

報錯背景單節點zokeeper 進入zookeeper客戶端的時候報錯：zkCli.sh 報錯現象 2020-07-03 18:39:47,943 [myid:localhost:2181] - INFO[main-SendThread(localhost:2181):ClientCnxn$SendThread@1112] - Opening soc

DART: Open-Domain Structured Data Record to Text Generation 翻譯

介紹

資料採集

樹本體與表的句子標註

連通分量提取

句子標註

構建Tripleset Sentence對兒

相關推薦