總結之知識圖譜前沿技術課程
- 前言
- 正文
- 參考文獻
前言
寫在前面,本文的內容主要基於2017年12月2日在蘇州大學舉辦的知識圖譜前沿技術課程(感謝各位老師的talk,受益良多)以及本人在之前閱讀的有關paper,對KG和QA的進一步認識還有待我繼續閱讀和學習有關paper與書籍。由於我知識水平有限,難免有些錯誤,如有錯誤還請賜教。
正文
知識圖譜2012年被谷歌提出之後,被廣泛應用於各個領域。在圖譜中,node一般代表entity或者concept,邊一般代表關係,常見的有isA和subclassOf的關係,類屬關係和子類關係實際上可以對應到語言學中的上下位詞關係,如:姚明是一名籃球運動員,此時姚明是籃球運動員的下位詞(hyponym)或者籃球運動員是姚明的上位詞(hypernym)。這部分屬於知識圖譜的一些常識知識,我就不過多贅述了,之前我也寫過參加其他課程和實習之後的一些見解,請參見之前的文章
構建大規模concept graph實際上需要做到以下三點“規模足夠大、粒度足夠細、概念足夠準”,在一定程度上就對應了三個衡量的指標即:Cost, Freshness和Quality,在實際的構建中對應著四個part,即Extraction(Cost), Completion(Quality), Correction(Quality)和Update(Freshness)。
在Extraction部分,語義關係通常來自常識和特定資訊(如文字和視訊等),之前常用的是人工標註語料加上機器學習方法如支援向量機(Support Vector Machine, SVM),但是這麼做會帶來幾個問題:代價問題、在cross-domain的時候效能下降以及在抽取之前往往不知道要抽取什麼關係,導致不能預先指定人工標註的語料。目前主要使用的是下面幾個方法:
1. Hearst Pattern
基於一些規則或者模板去做抽取,例如“NP such as NP”可以抽取出上下位關係。
2. Bootstrapping
初始化種子entity pair,使用這些種子pair在文字中擴充套件新的entity pair,但是會導致語義漂移的問題。例如,對於首都這一關係,使用種子entity pair(北京,中國)、(首爾,韓國)、(東京,日本)等,在文字中擴充套件時遇到“北京位於中國”的情況,從而將“X位於Y”對應到了首都這一關係,產生(江蘇,中國)這樣的(語義漂移)錯誤。
解決語義漂移,有如下幾個方法:
a. Mutual Exclusion Bootstrapping(利用互斥類別,一個實體只能屬於一個類別)[1]
b. Coupled training(建模不同抽取關係之間的約束,尋找最大化滿足這些約束的抽取結果)[2]
c. Co-Bootstrapping(引入負例項來限制漂移)[3]
3. Distant Supervision
這個部分有幾項工作:
a. 多源弱監督知識協同建模(這篇論文應該發表在AAAI 2016,但是沒找到),基於Markov Logic,使用多種不同的弱監督來提升關係抽取的效能。包括兩個實體的一致性、具有特定關係的實體約束以及類似的表達具有相同的語義。
b. 引入Attention機制對例項做選擇[4]
c. RL for Relation Classification from Noisy Data
這是清華大學黃民烈老師組的工作,已被AAAI 2018收錄,是我前不久看的一個talk,將強化學習用於有噪聲的資料去做關係分類(抽取),想要解決也是在噪聲資料集的問題,因為Distant Supervision的兩個假設會導致大量噪聲資料。
4. Open IE
在本部分會遇到兩個問題:
a. 複雜句子的處理
1) 定義分解規則,將複雜句子分解成簡單句[5]
2) 使用句子句法結構+轉換規則進行簡單句分解,如Stanford OpenIE
b. 語義的歸一化
1) DIRT[6]
2) Soft Set inclusion
3) Topic Model
例如,X得到Y,如果X是公司,“X得到Y”往往可能等價於“X收購了Y”,但X指人的時候往往不能將“X得到Y”和“X收購了Y”歸一,這時候需要Topic Model。
4) Jaccard
在Completion和Correction部分,可以使用collaborative filtering和transitivity做知識圖譜的completion,包括遺失的邊(關係)等。關於correction,則可以通過觀察在概念分類(層)出現的環,這種環的結構很大程度需要進行修正。這裡舉一個肖老師講的例子,發現Paris有個下位詞是exciting city,實際上是因為將“……Paris such an exciting city……”打成了“……Paris such as exciting city……”,計算機就將這個錯誤的上下位詞關係抽取出來了。這個問題可以通在兩條邊的置信度來刪除錯誤的關係,即可以統計兩條邊出現的頻率等等。
在Update部分,實際上是為了保證Freshness,很general的想法是把整個資料來源(如百度百科等)遍歷一遍,看哪些實體需要更新,但是這一過程可能需要很長時間,顯然用這種方法更新圖譜就成了偽命題,永遠更新不完。“How to Keep a Knowledge Base Synchronized with Its Encyclopedia Source”是復旦肖仰華老師組的工作,發表在IJCAI 2017(我曾經總結過這篇paper,詳情見我之前的博文[傳送門——論文閱讀筆記之How to Keep a Knowledge Base Synchronized with Its Encyclopedia Source],內含paper原文連結),關於Update這部分就不再贅述。
知識圖譜的構建實際還需要繼續細分,使用諸如實體連結、命名實體識別、實體關係識別等等方法,與此同時還需要人工做一部分工作,也就有了眾包(Crowdsourcing)。
Crowdsourcing方面主要講兩個方面,第一個方面是基於眾包的資訊標註,在實際情況中,專家標註語料往往需要很大的開銷,而普通標註員往往開銷小,但是標註的語料質量不高。同時在cross-domain和new domain,或者引入new class的時候,之前標註的語料對新任務的幫助並不大。蘇州大學陳文亮老師組的一項工作,利用對抗學習構建了AI Crowd框架,去學習不同標註員(少量專家和大量普通標註員)標註語料的共性,最終使得計算機無法分辨哪部分語料來自專家,哪部分語料來自普通標註員。該工作的意義在於當遇到new domain或者new class,只需要少量專家和大量普通標註員進行標註得到語料(此時的語料中質量並不高),再通過AI crowd框架使得語料質量得到提升。
第二方面,是關於更general的眾包問題,如何設計眾包的方式等等。目前的眾包方式實際上可以分為顯式眾包(Explicit Crowdsourcing)和隱式眾包(Implicit Crowdsourcing)。在顯式眾包方面,如何設計問題,因為眾包參與者的偏向如下:判斷題>選擇題>填空題;更傾向於回答簡單問題,如將問題“在NBA獲得總冠軍戒指的中國球員是誰?”拆成“孫悅是不是中國籃球運動員”和“孫悅有沒有在NBA獲得總冠軍戒指”這兩個問題。與此同時,需要考慮到cost和accuracy的平衡,在SIGMOD 2017上有一篇文“An Adaptive Human Interface for Crowd Entity Resolution”去mix multi-choice and Yes-or-no。同時在主動眾包方面,如何計算眾包參與者的報酬,也成為一個問題,這個方面可以參見我暑假參加中國人工智慧大會時聽到的一個talk“眾包中的統計推斷與激勵機制”[傳送門],美國微軟雷德蒙研究院周登勇研究員在這方面做了相關工作。在隱式眾包方面,有些資料的質量往往高於顯式眾包。關於隱式眾包有幾個比較有意思的工作:
1. reCAPTCHA利用驗證碼去識別古文中難以識別的字元,每年可以識別數十億的內容且正確率超過99%[7]。
2. Common sense knowledge acquisition
這項工作實際上是利用類似於“你畫我猜”的遊戲,在玩家遊戲過程中去獲取一些common sense,而common sense是計算機無法從語料中獲取的(如太陽是圓的,很難從語料裡得到,但是一旦獲取這個知識可以在物體檢測裡面發揮比較重要的作用),同時common sense在做一些推理和理解時往往十分的關鍵。在這樣一個遊戲中,當要猜“太陽”時,玩家可能會描述“這個物體發光發熱並且是圓形”,這樣計算機就可能獲得平時得不到的common sense。
3. 兒童外語學習認知資料收集的線上遊戲框架acquisition
這個框架來自我看過的一篇論文,發表在CCL 2017上,是清華大學張敏老師組的工作。通過線上遊戲去獲取針對學齡前兒童的第二語言為英語的詞彙認知資料,並且通過一些原則和措施在收集資料的同時滿足測驗者的興趣和使用需求,確保不會對兒童的成長造成負面的影響和打擊。
關於隱式眾包的一些思路可以給以後的資料收集帶來一些啟發,包括如何設計資料收集的框架,是不是可以引入一些類似於遊戲中等級的機制等等。
高質量知識圖譜的構建,可以在一些方面有所應用。例如,意圖的理解;實體相似性判斷,比如清華和北大,這兩個詞沒有互相重複的文字,但是具有很強的相似性,這個相似性就可以通過知識圖譜去發現;可解釋的推薦,目前的推薦系統很多都只是推薦商品、新聞等等,並不能給出推薦的理由;可解釋的人工智慧,這部分可以參見肖老師曾經做過的有關talk[傳送門——基於知識圖譜的可解釋人工智慧]。除這些應用之外,其實還有很多很多,比如問答系統,下面就來簡單說下問答系統。
目前的問答系統很多是基於知識庫的,即KB-QA(Knowledge Based Question Answering),可以將KB-QA分為Semantic Parsing-based KB-QA(SP-QA)和Information Retrieval-based KB-QA(IR-QA),兩種QA的思路完全有很大的不同
IR-QA確定問題中的中心實體,然後挑選候選答案,對答案做一個排序後回答query。下面是一個例子,回答query“姚明是哪裡人?”,通過實體連結發現中心實體是姚明,基於知識庫很多三元組比如<姚明,出生地,上海>、<姚明,職業,籃球運動員>等去生成問題,例如“姚明在哪裡出生?”、“姚明的職業是什麼?”,這裡使用了NLG技術,即自然語言生成。將生成的有關問題和答案做一個排序,然後去回答query[8-9]。
SP-QA實際上是根據Semantic Parsing如CCG, DCS, SMT等去解析,然後生成lamda表示式或者其他形式如SPARQL等,再去KB中尋找相關答案去回答問題[10-12]。Semantic Parsing有下面幾種方法:
a.Constructed rules[13]
b.Grammar-based[14]
c.Supervised Learning[15]
IR-QA和SP-QA有著各自的優點,SP-QA是基於Semantic Parsing的,在一定程度上是通過解析語義來回答問題,而IR-QA往往Recall很多,在現實場景中往往將兩者結合使用。
這裡補充智言科技的一個工作:SPARQL Generation via rule based model and seq2seq + RL,通過使用規則(模板)將自然語言的query生成SPARQL語句,在複雜的情況下,rule-based model的效果不是很好,使用一個seq2seq+RL的框架去訓練一個model實現qery2sparql的轉換。
上面的部分主要和學術界更相關,但實際上技術是要真正落地,所以在落地過程中會產生一些問題以及實際經驗(包括但不限於):
1.在學術界研究的時候,往往query是比較理想的,但是在工業界會遇到更例項化的問題。比如,保險領域中使用者問的是“打仗了會理賠嗎?”,實際的條款只出現了“戰爭”這個詞,而沒有出現“打仗”;或者,相關車險有不能異地辦理的限制,而使用者可能更例項化地去問“南京的汽車能不能在上海買這個車險?”,如何更好地去處理這些問題,去回答更例項化的問答。
2.面對資料量不足的時候,是否可以做遷移學習,將一個已經解決的方案或者資料遷移到另一個相近的問題上;或者利用一些model去產生一些可以使用的資料等等。
3.在做資料融合(Knowledge Fusion)的時候,如果某個資料來源非常非常可靠、質量很高的時候,可以不做fusion而直接使用某個資料來源。
參考文獻
[1] Mcintosh T, Curran J R. Weighted Mutual Exclusion Bootstrapping for Domain Independent Lexicon and Template Acquisition[J]. Proceedings of the Australasian Language Technology Association Workshop, 2008:97–105.
[2] Carlson A, Betteridge J, Wang R C, et al. Coupled semi-supervised learning for information extraction[J]. 2010:101-110.
[3] Ye F, Shi H, Wu S. Research on Pattern Representation Method in Semi-supervised Semantic Relation Extraction Based on Bootstrapping[C]// International Symposium on Computational Intelligence & Design. IEEE, 2014:568-572.
[4] Lin Y, Shen S, Liu Z, et al. Neural Relation Extraction with Selective Attention over Instances[C]// Meeting of the Association for Computational Linguistics. 2016:2124-2133.
[5] Corro L D, Gemulla R. ClausIE: clause-based open information extraction[C]// International Conference on World Wide Web. ACM, 2013:355-366.
[6] Lin D, Pantel P. DIRT @[email protected] of inference rules from text[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2001:323-328.
[7] Von A L, Maurer B, Mcmillen C, et al. reCAPTCHA: human-based character recognition via Web security measures.[J]. Science, 2008, 321(5895):1465-1468.
[8] Bordes A, Chopra S, Weston J. Question Answering with Subgraph Embeddings[J]. Computer Science, 2014.
[9] Dong L, Wei F, Zhou M, et al. Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]// Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. 2015:260-269.
[10] Yih W T, Chang M W, He X, et al. Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base[C]// Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. 2015:1321-1331.
[11] Dong L, Lapata M. Language to Logical Form with Neural Attention[J]. 2016:33-43.
[12] Zou L, Huang R, Wang H, et al. Natural language question answering over RDF: a graph data driven approach[M]. ACM, 2014.
[13] Tunstall-Pedoe W. True Knowledge: Open-Domain Question Answering Using Structured Knowledge and Inference[J]. Ai Magazine, 2010, 31(3):80-92.
[14] Zettlemoyer L S, Collins M. Learning to map sentences to logical form: structured classification with probabilistic categorial grammars[C]// Conference on Uncertainty in Artificial Intelligence. AUAI Press, 2005:658-666.
[15] Berant J, Liang P. Semantic Parsing via Paraphrasing[C]// Meeting of the Association for Computational Linguistics. 2014:1415-1425.
相關推薦
總結之知識圖譜前沿技術課程
前言 正文 參考文獻 前言 寫在前面,本文的內容主要基於2017年12月2日在蘇州大學舉辦的知識圖譜前沿技術課程(感謝各位老師的talk,受益良多)以及本人在之前閱讀的有關paper,對KG和QA的進一步認識還有待我繼續閱讀和學習有關paper與
研討會 | 知識圖譜前沿技術課程暨學術研討會(武漢大學站)
知識圖譜作為大資料時代重要的知識表示方式之一,已經成為人工智慧領域的一個重要支撐。4月28日,“
OSI物理層中通訊方式的總結之通道複用技術
[百科上這樣描述]“複用”是一種將若干個彼此獨立的訊號,合併為一個可在同一通道上同時傳輸的複合訊號的方法。 比如,傳輸的語音訊號的頻譜一般在300~3400Hz內,為了使若干個這種訊號能在同一通道上傳輸,可以把它們的頻譜調製到不同的頻段,合併在一起而不致相互影響,並能在接收端彼此分離
知識圖譜構建技術綜述
《知識圖譜構建技術綜述》(劉 嶠 李 楊 段 巨集 劉 瑤 秦志光,電子科技大學)是博主在入門知識圖譜時所看的綜述文章之一,感謝劉知遠老師在知乎的推薦。本文是讀論文時所做的筆記。 1.知識圖譜的定義和架構 1.1知識圖譜的定義 結構化的語義知識庫 對物理世界的符號表達
領域應用 | 知識圖譜的技術與應用
本文轉載自公眾號:貪心科技。作者 | 李文哲,人工智慧、知識圖譜領域專家導讀:從一開始的Goog
醫學知識圖譜構建技術與研究進展
來源: 人機與認知實驗室 概要:醫學知識圖譜是實現智慧醫療的基石,有望帶來更高效精準的醫療服務。 摘要:醫學知識圖譜是實現智慧醫療的基石,有望帶來更高效精準的醫療服務。然而,現有知識圖 譜構建技術在醫學領域中普遍存在效率低,限制多,拓展性差等問題。針對醫療資料跨語種,專業性強,結構複雜等特點,對構建醫學
知識圖譜關鍵技術及行業應用解讀
本文來自公眾號PlantData知識圖譜實戰(ID:KGPlantData),內容整理自胡芳槐博士6月9日北理工知識圖譜實戰學習活動上分享的《知識圖譜應用關鍵技術及行業應用》。 今天我要分享的主題是知識圖譜應用關鍵技術及我們在行業應用中的一些探索,其實剛剛
乾貨 | 知識圖譜的技術與應用
作者 | 李文哲,人工智慧、知識圖譜領域專家、貪心學院院長導讀:從一開始的Google搜尋,到現在的聊天機器人、大資料風控、證券投資、智慧醫療、自適應教育、推薦系統,無一不跟知識圖譜相關。本文以通俗易懂的方式來講解知識圖譜相關的知識,尤其對從零開始搭建知識圖譜過程當中需要經歷的步驟以及每個階段需要考慮的問題都
乾貨 | 從零到一學習知識圖譜的技術與應用
作者 | 李文哲(人工智慧、知識圖譜領域專家)來源 | 貪心科技導讀:從一開始的Google搜尋
知識圖譜的技術與應用-筆記
知識圖譜的技術與應用 原文連結 概論 只要有關係分析的需求,就能用上“知識圖譜” 場景 社交網路圖譜 風控知識圖譜 知識圖譜應用的前提是已經構建好了知識圖譜 知識圖譜是一個比較新的工具,主要作用在於分析關係,尤其是深度的
最全的區塊鏈技術分析和總結(附知識圖譜)
區塊鏈是與當下與VR虛擬現實等比肩的熱門技術之一。區塊鏈是加密貨幣背後的技術,與基礎語言或平臺等差別較大,它本身不是新技術,類似Ajax,可以說它是一種技術架構,所以我們從架構設計的角度談談區塊鏈的技術實現。 無論你擅長什麼程式語言,都能夠參考這種設計去實現一款區塊鏈產品。
基礎知識總結之 jdk部分
比較 java_home 二進制 一模一樣 出現 path 解釋 字節碼 編譯 第一次安裝jdk 按照操作走完 會出現 C:\Program Files\Java\jdk1.8.0_91 和 C:\Program Files\Java\jre1.8.0_91 兩個目錄 (
Ajax技術總結之XmlHttpRequest
對象 encode 語言 技術 上傳 con get方法 分享 代碼 Ajax 1、 什麽是ajax AJAX = Asynchronous JavaScript and XML(異步的 JavaScript 和 XML),XML 指可擴展標記語言 XML
程序員不能錯過的技術知識圖譜,進階路上必備神器。
程序員 jave 本文轉載自李亞鵬本文是鵬哥多年來積累和收集的技術知識技能圖譜,有的是鵬哥原創總結的最佳實踐,有的是小夥伴們的分享。其實,每個秘籍圖譜裏面的內容都是互聯網高並發架構師應該了解和掌握的知識。鵬哥索性就把這些圖譜都收集在一起,並且進行了歸類,便於大家查找和學習。暫把標題定為:“史上最全的技
程序員進階路上不能錯過的史上最全技術知識圖譜秘籍
容器 互聯網 def 1.3 java架構師 方法 分享 開發技能 2.4 今天在技術大海中遊啊遊遊啊遊,哇啊哈哈 ^_^發現了一份非常有用的超級技術圖譜誒! 強烈推薦啊!!本文原作者是易寶支付技術經理/架構師李艷鵬,這是鵬哥多年來積累和收集的技術知識技能圖譜,有的是鵬哥原
知識總結之form表單屬性及H5新增特性
bsp ron mit 驗證 pick -s value 地址欄 屬性 一、form的幾大屬性 1.method屬性 規定用於發送 form-data 的 HTTP 方法,即請求的方式;主要用來提交參數與後臺數據進行交互。 分為GET和POST兩種方式,
IT架構師絕對不能錯過的34張史上最全技術知識圖譜
技能圖譜架構師圖譜Java架構師圖譜微服務架構秘籍 一致性圖譜互聯網大流量的方法安全秘籍阿裏巴巴常用小框架架構方法論圖譜設計模式秘籍圖譜 JVM虛擬機垃圾回收圖譜Java並發圖譜Java集合圖譜Java集合類圖Java List類圖Java Map類圖Java Set類圖Java TCP IPHadoop技能
CSS基礎知識總結之css樣式引用的三種方式
基礎 通過 基礎知識 set nbsp 知識總結 引用關系 元素 type 在html中增加css樣式有三種: 1.在標簽中增加style屬性: <!DOCTYPE html> <html lang="en" xmlns="http://www.w3.o
PMP總結之變更相關知識
得到 控制系統 角色 原因 10個 實現 組成 相關 情況 首先總結一下PMBOK哪些過程會輸出變更請求。總共有16個過程會輸出變更請求,它們是:(1)一個規劃過程組:規劃采購管理。采購計劃可以較晚編制,故采購計劃編制可能導致對以前的已經形成的計劃的修改。(2)5個執行過程
學習總結之Linux基礎知識
基礎 bug 引用 hosts 個人版 boot -s 發布 分配 在經過了一段時間的學習之後,不但對之前較模糊的知識點有了一個比較清晰的認識,還學到了一些沒學到的東西。下面對這些知識點做一個總結,一是想對這一階段畫上一個比較完美的句號,二是想把這篇博客當做以後的一個筆記之