1. 程式人生 > >論文淺嘗 | 神經網路與非神經網路簡單知識問答方法的強基線分析

論文淺嘗 | 神經網路與非神經網路簡單知識問答方法的強基線分析

640?wx_fmt=png

來源:NAACL 2018

連結:http://aclweb.org/anthology/N18-2047

本文關注任務為面向簡單問題的知識庫問答(僅用KB中的一個事實就能回答問題)。作者將任務劃分為實體檢測,實體連結,關係預測與證據整合,探究了簡單的強基線。通過基於SIMPLEQUEST IONS資料集上的實驗,作者發現基本的LSTM或者GRU加上一些啟發式方法就能夠在精確度上接近當前最優,並且在沒有使用神經網路的情況下依然取得相當不錯的效能。這些結果反映出前人工作中,某些基於複雜神經網路方法表現出不必要的複雜性。

動機

近期的簡單知識庫問答工作中,隨著神經網路模型複雜性的增加,效能也隨之提升。作者認為這種趨勢可能帶來對網路結構有效性理解的缺失,

Melis等人的研究也佐證了這一點。他們發現,標準的LSTM通過適當的調參,就可以得到堪比最新網路模型的效能。

從這一觀點出發,作者嘗試去除不必要的複雜結構,直到獲得一個儘可能簡單但是效能優異的模型

方法

實體檢測(Entity Detection

實體檢測的目標是確認問題相關的實體,可以抽象為序列標註問題,即識別問題中的每個字元是否是實體。考慮到涉及序列處理,採用RNN是相對流行的做法。

在神經網路策略上,作者以問句的詞嵌入矩陣作為輸入,在雙向LSTMGRU上進行實驗。(因為是構建baseline,作者並未在網路模型上新增CRF)

非神經網路方法則選用CRF(特徵包括:詞位置資訊,詞性標註,n-gram

等等)

通過實體檢測,可以得到表達實體的一系列關鍵詞(字元)

實體連結(Entity Linking

作者將實體連結抽象為模糊字串匹配問題,並未使用神經網路方法。

對於知識庫中的所有實體,作者預先構造了知識庫實體名稱n-gram的倒排索引,在實體連結時,作者生成所有候選實體文字相應的n-gram,並在倒排索引中查詢和匹配它們(策略是優先匹配較大粒度的n-gram)。

獲取到可能的實體列表後,採用Levenshtein Distance進行排序篩選。

關係預測(Relation Prediction

關係預測的目標是確定問題所問的關係資訊,作者將其抽象為句子分類問題。對於這個子任務,作者在神經網路方法分別嘗試了

RNNCNN兩種。

RNNs:與實體檢測類似,作者也採用雙向RNNGRU構建模型,並僅依據隱狀態作為證據進行分類,其他與目標檢測模型一致。

CNNs:這裡引用Kim等人(2014)的工作,簡化為單通道,使用2-4寬度做特徵對映。

非神經網路方法則採用了邏輯迴歸策略(Logistic Regression),特徵方面選擇了兩組,其一是tfidfbi-gram,其二是詞嵌入與關係詞。

證據整合(Evidence Integration

該任務的目標是從前面生成的m個候選實體與n個關係中選出(m!=n)一個實體-關係組合。

作者首先生成m*n個候選組合,考慮到實體檢測和關係預測是相對獨立的模型,這意味著很多組合意義不大,可以做初步消除。

在組合打分策略上,考慮到知識庫中相同的共享節點,比如所有姓名為“亞當斯密”的人,作者對出現頻率過高的實體進行打分限制。

實驗

對比實驗基於 SIMPLEQUESTIONS資料集,並劃分資料規模:訓練集75.9K,驗證集10.8K,測試集21.7K

作者進行了實體連結,關係預測和end2end問答三組實驗:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

從各組實驗的結果可以發現,本文建立的基礎結構模型所得到的baseline在三個任務中,均超過了部分較新的工作。

總結

實驗結果有效驗證了作者的觀點,基本的LSTM或者GRU通過有效的除錯,能夠在精確度上接近當前最優,而非神經網路方法配合新的特徵組合也能夠取得相當不錯的效能。

論文筆記整理:譚亦鳴,東南大學博士,研究方向為知識庫問答、自然語言處理。

OpenKG.CN

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

640?wx_fmt=jpeg

點選閱讀原文,進入 OpenKG 部落格。