特定領域因果事件圖譜構建專案
CausalityEventExtraction
self complement of templated based causality event extraction 基於因果關係知識庫的因果事件圖譜構建demo 專案地址:https://github.com/liuhuanyong/CausalityEventGraph
專案介紹
現實社會是個邏輯社會,大量的邏輯即邏輯經驗存在於我們的腦海中,而這些邏輯經驗是無法窮舉出來的,靠大量人工的總結,顯然不切實際。然而,幸好人類將這種邏輯用文字表達出來了,這為我們利用自然語言處理技術實現這種因果邏輯的抽取提供了可能性。不過,受限於自己的技術水平,目前還無法將深度學習這套高階的打發應用於因果事件抽取當中,而以構造和總結因果模板,結合中文語言特點,構建因果語言知識庫的方式代替。 本專案是對因果事件抽取以及因果知識圖譜構建的一種嘗試。
技術路線
因果事件圖譜技術流程上遵循以下流程:
主要包括以下幾個步驟: 1、因果知識庫的構建。因果知識庫的構建包括因果連詞庫,結果詞庫、因果模式庫等。 2、文字預處理。這個包括對文字進行噪聲移除,非關鍵資訊去除等。 3、因果事件抽取。這個包括基於因果模式庫的因果對抽取。 4、事件表示。這是整個因果圖譜構建的核心問題,因為事件圖譜本質上是聯通的,如何選擇一種恰當(短語、短句、句子主幹)等方式很重要。 5、事件融合。事件融合跟知識圖譜中的實體對齊任務很像 6、事件儲存。事件儲存是最後步驟,基於業務需求,可以用相應的資料庫進行儲存,比如圖資料庫等。
最終效果
經過以上幾個流程之後,可以支援各類查詢,比如已知原因找結果,已知結果找原因等,這都很有事情,總之,資料庫有了,我們可以做的事情有很多,接下來就是我們腦洞的事情了。 接下來以以下幾個事件在因果知識庫中查詢一把: 以上幾個圖展示了輸入既定事件在資料庫中相似的事件(一度),相似事件導致的結果(二度節點)。
范冰冰偷稅漏稅事件
美國攻打伊拉克事件
壽光發生洪水事件
總結
1)基於規則這套,很實用,但問題不少,規則維護比較多 2)事件表示這塊一定要好好想想啊 3)事件融合這塊,利用各種相似度度量進行計算,都有一定缺陷