1. 程式人生 > 實用技巧 >知識庫問答中的關係識別研究回顧

知識庫問答中的關係識別研究回顧

©PaperWeekly 原創 ·作者|舒意恆

學校|南京大學碩士生

研究方向|知識圖譜

知識庫是用於知識管理的特殊資料庫,通常由大量三元組構成,三元組形如(奧巴馬,出生於,火奴魯魯),三者分別是三元組的 subject、predicate 和 object(主語、謂詞和賓語),其中謂詞也可被稱作關係。

知識庫問答嘗試構建利用知識庫資訊的問答系統,關係識別是知識庫問答中的重要環節,即識別出自然語言問題中所提及的知識庫謂詞(關係),將自然語言描述與知識庫中的謂詞聯絡起來。本文盤點近年來部分關於知識庫問答關係識別的研究。

首先,我們需要了解關係識別這一問題的難點,在自然語言對關係的描述中,通常存在以下現象:

  • 表述形式多樣:例如“be famous for”和“known for”兩個短語,雖然在字面上的相似度很低,但實際上在語義上相近。關係的描述不同於實體,可能不侷限於短語的形式,還可能是由包含連詞、介詞等的搭配描述。

  • 隱式關係可能需要推斷,例如“Which Americans have been on the moon?” 其中 Americans 表示一個針對“出生”的額外的約束,但句中沒有“is born”這類顯式的約束。

  • 含義與上下文相關:同一謂詞在不同的語境中可能表示不同的含義,需要我們在識別關係時利用整個句子的上下文資訊。

  • 測試集中的未知關係:在訓練模型時,訓練集中包含的關係數量總是有限的,測試集中可能包含大量模型沒有學習過的關係。

  • 正負樣本的生成:對於一個句子,正確的關係連結結果可能只有數個,而關係連結工具卻可能產生遠超過這個數量的錯誤的關係連結候選作為負樣本。對於一個分類模型,如何平衡正負樣本的數量,如何提升負樣本的質量,值得討論。

而當前關係識別的基本思路,大體上至少包括:

  • 謂詞詞典:詞典即通過演算法生成或人工編寫的資料,可直接為關係識別的演算法所用。在 NLP 研究中,有單詞到單詞的詞典,短語到短語的詞典,但此處特指的是謂詞到短語的詞典。

  • 神經網路方法:相比詞典而言,神經網路方法具有更好的模糊匹配和應對未知輸入的能力。

需要注意的是,無論是謂詞詞典還是神經網路方法,它們的構建都是基於有限的謂詞資訊,對於沒有見過或者沒有學習過的關係,識別的效能可能會相對下降,且不同的方法所適用的知識庫也可能是不同的。而對於神經網路方法來說,經過預訓練的詞嵌入模型能夠提供一定的超越訓練資料的泛化能力。

下面,本文將從四方面簡介現有的關係識別的研究。

  1. 簡單問答系統中的關係識別模型

  2. 詞嵌入方法在關係識別中的應用

  3. 謂詞詞典在關係識別中的應用

  4. 未知關係的識別

簡單問答系統中的關係識別模型

簡單問答在此處指的是沒有約束或聚合操作的,通過找到問題中所述的實體和關係,就能直接通過知識庫中三元組進行回答的問答任務。在簡單問答的過程中,實體和關係的連結是最關鍵的問題,是找到知識庫中相關三元組無法迴避的問題。

ACL 2016《Simple Question Answering by Attentive Convolutional Neural Network》一文嘗試使用注意力卷積神經網路做簡單問答,如下圖所示,包含兩個主要步驟:實體連結與事實選擇。其事實所指的是知識庫中三元組表示的事實。

  • 實體連結:通過字元級 CNN 將事實候選中的主語實體與問題中的實體描述進行匹配。

  • 謂詞連結:通過單詞級 CNN 將該事實中的謂語與問題進行匹配。

使用 CNN 處理文字,尤其應對形態多變的關係描述,存在著固有的缺陷:關係的描述可能並不侷限在一個文字的區域性,長距離依賴是可能存在的,且長度不便預估。

ACL 2017《Improved Neural Relation Detection for Knowledge Base Question Answering》嘗試更好地揣摩自然語言問題的含義,其任務相比於上文更加簡單,匹配自然語言問題與知識庫關係,給出相似度。

作者構建了一個如下圖所示的分層 RNN 嘗試實現這一點,一個深度殘差雙向 LSTM 被用於在不同的抽象層次表示問題。對於關係表示,作者使用了關係級表示和單詞級表示,並通過最大池化將二者融合。

不過,個人認為即使作者通過消融實驗說明利用殘差學習的雙層 Bi-LSTM 能夠取得更好的效果,卻很難從除引數規模以外的方面解釋雙層網路在問題理解上的優勢。

詞嵌入方法在關係識別中的應用

ICSC 2019《Evaluating Architectural Choices for Deep Learning Approaches for Question Answering over Knowledge Bases》通過實驗研究知識庫問答中的深度學習方法架構選擇,其中在謂詞預測任務中設定了下列架構:

  • BiLSTM-Softmax:標準的 BiLSTM softmax 分類器預測問題屬性,輸出範圍覆蓋訓練過程中見過的所有屬性

  • BiLSTM-KB:預測與預訓練 KB 嵌入中最接近的謂詞表示匹配的謂詞低維表示

  • BiLSTM-Binary:二元決策,判斷一對(主體,謂詞)是否匹配給定問題

  • FastText-Softmax:使用 FastText 作為分類器預測屬性

簡單的結論是,作者認為 FastText 提供了更好的效果。FastText 是一個使用神經網路的詞嵌入方法,表現出相對 BiLSTM 的各類方法的優越性。

ISWC 2019《Pretrained Transformers for Simple Question Answering over Knowledge Graphs》研究 BERT 在 SIMPLEQUESTIONS(簡單問答的基準測試) 上的表現,並提供了在有限資料情況下基於 BERT 和 BiLSTM 的模型的評估。

可見,關係識別相比於實體的識別,對於資料量的要求更加嚴苛,而在相同資料量的情況下使用 BERT 的表現總是好於 BiLSTM。詞嵌入與預訓練模型的一個優勢在於能引入外部的語言知識,來彌補有限的訓練資料。

謂詞詞典在關係識別中的應用

重述(paraphrase),即同一個意思的不同文字表達方式,是理解知識庫謂詞的一種方法。即使是人類學習語言,在應對同一語義的大量不同表述時,可能最簡單的方法也不過是記憶。

EMNLP 2012《PATTY: A taxonomy of relational patterns with semantic types》一文中介紹了一種經典的謂詞詞典的構造方法,而 AAAI 2020《The Value of Paraphrase for Knowledge Base Predicates》指出了前者的問題,並提出了一個優化後的謂詞詞典。部分現有詞典的概覽如上圖所示。

Patty 是一個謂詞到短語的詞典,包含 225 個謂詞和 127,811 個謂詞-短語對。可見其謂詞數量相當有限,並被後者認為其中存在一定的錯誤。

後者收集了 DBpedia(一個基於維基百科構建的知識庫)中的 2,284 個謂詞和 31,130 個謂詞-短語對,其包含的謂詞數量大幅提升,並去除了許多錯誤的短語。在問答系統之外,作者還嘗試將該詞典應用於問題生成任務。

作者通過實驗證明,其新詞典在 QALD(一項鍊接資料上構建問答系統的評估競賽)上的表現有一定提升,其中帶 * 表示使用新詞典,如下圖所示。

個人認為,即使通過大量運算和人工構建詞典,並不斷優化內容,一個好的詞典對關係識別任務的影響也停留在量上的進步,對於一個有一定關係識別能力的問答系統,引入詞典或許僅僅是一種輔助手段。詞典存在容量限制,若要維護其與時俱進更是需要成本。

未知關係的識別

深度學習本質是經驗主義的發展,而未知關係超出了經驗的範疇,即訓練資料中包含的關係總是有限的,需要通過額外的資訊緩解這一缺陷。

ACL 2019《Learning Representation Mapping for Relation Detection in Knowledge Base Question Answering》認為利用知識圖譜嵌入的預訓練模型是一種方法。

預訓練模型產生的關係表示不直接適用於特定的任務,若將它作為初始表示,可根據有標籤的訓練資料對模型進行微調,即相當於利用預訓練模型豐富的語言知識,同時重點考慮如何將它的通用表示應用到關係識別任務中來。

但是,未知關係,即訓練資料中沒有見過的關係,其表示無法在微調中被更新。因此,作者嘗試構建關係表示的介面卡(adapter),以將通用目標的表示轉換為任務特定的表示。

如上圖所示,作者提出兩種介面卡的實現,分別是基礎介面卡和對抗介面卡。對於基礎介面卡,直接使用線性對映;對於對抗介面卡,其中的生成器嘗試生成足夠接近真實關係對映後的表示,而判別器嘗試區分生成的虛假表示和真實的關係對映。

在設計完介面卡後,其關係識別模型的整體架構類似於前文所述的分層 RNN 模型。

小結

個人認為,早前的問答系統的研究關注於簡單問題,而解決簡單問題中最重要的步驟就是實體連結與關係識別,它們直接決定了找到知識庫中相關三元組的方法。而隨著詞嵌入方法和預訓練模型的興起,它們也被應用到關係識別任務中。

詞典是一種直接記憶大量謂詞表述的方法,如何利用眾包和機器挖掘演算法構造高質量的適用於不同資料集的有一定覆蓋範圍的詞典,仍然是值得長期研究的課題。

而無論是神經網路方法還是利用謂詞詞典,它們所能記憶或者學習的謂詞數量一定是有限的,在應用場景中仍然可能存在大量模型沒有見過的關係,而要緩解這一問題,可能需要引入更多知識庫外部的語言知識。

預訓練模型通常不是為了某一個特定的 NLP 任務構建的,而要應用到具體的 NLP 下游任務中,需要進行一定的微調或轉換。在關係識別任務中這一點也適用。

另外,現有的部分方法中,對自然語言問題的表示和對關係的表示是分離的,將這二者分別學習出表示再進行匹配與評分,不妨考慮如何通過注意力等模型找出問題中的關鍵資訊,再與關係進行匹配。

聯絡我

很期待能與各位對知識圖譜或問答系統有興趣的同學交流學習(別忘了備註呀,謝謝)。

參考文獻

[1] ACL 2016|Simple Question Answering by Attentive Convolutional Neural Network

[2] ACL 2017|Improved Neural Relation Detection for Knowledge Base Question Answering

[3] ICSC 2019|Evaluating Architectural Choices for Deep Learning Approaches for Question Answering over Knowledge Bases

[4] ISWC 2019|Pretrained Transformers for Simple Question Answering over Knowledge Graphs

[5] EMNLP 2012|PATTY: A taxonomy of relational patterns with semantic types

[6] AAAI 2020|The Value of Paraphrase for Knowledge Base Predicates

[7] ACL 2019|Learning Representation Mapping for Relation Detection in Knowledge Base Question Answering

更多閱讀

#投 稿通 道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

????來稿標準:

• 稿件確係個人原創作品,來稿需註明作者個人資訊(姓名+學校/工作單位+學歷/職位+研究方向)

• 如果文章並非首發,請在投稿時提醒並附上所有已釋出連結

• PaperWeekly 預設每篇文章都是首發,均會新增“原創”標誌

????投稿郵箱:

• 投稿郵箱:[email protected]

• 所有文章配圖,請單獨在附件中傳送

• 請留下即時聯絡方式(微信或手機),以便我們在編輯釋出時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。