醫學知識圖譜構建技術與研究進展
來源: 人機與認知實驗室
概要:醫學知識圖譜是實現智慧醫療的基石,有望帶來更高效精準的醫療服務。
摘要:醫學知識圖譜是實現智慧醫療的基石,有望帶來更高效精準的醫療服務。然而,現有知識圖 譜構建技術在醫學領域中普遍存在效率低,限制多,拓展性差等問題。針對醫療資料跨語種,專業性強,結構複雜等特點,對構建醫學知識圖譜的關鍵技術進行了自底向上的全面解析,涵蓋了醫學知識表示、抽取、融合和推理以及質量評估五部分內容。此外,還介紹了醫學知識圖譜在資訊檢索、知識問答、智慧診斷等醫療服務中的應用現狀。最後,結合當前醫學知
識圖譜構建技術面臨的重大挑戰和關鍵問題,對其發展前景進行了展望。
關鍵詞:知識圖譜;知識獲取;知識融合;知識推理;自然語言處理
引言
自 1998 年全球資訊網之父 Tim Berners-Lee 提出語義網,人們不斷在網路等電子載體上表達和修正對客觀世界的理解,形成 了一個概念標準化的過程,同時隨著連結開放資料 (Linked Open Data)的規模激增,網際網路上散落了越來越多的知識元資料。
知識圖譜就是在這樣的大資料背景下產生的一種知識表示和管理的方式,強調語義檢索能力。近年來,在人工智慧的蓬勃發展下,知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務領域的一個新熱點,受到國內外學者和工業界廣泛關注。
知識圖譜的前身是語義網,它吸收了語義網、本體在知識組織和表達方面的理念,使得知識更易於在計算機之間和計算機與人之間交換、流通和加工。具體來說,一個知識圖譜由模式圖、資料圖及兩者之間的關係組成:模式圖對人類知識領域的概念層面進行描述,強調概念及概念關係的形式化表達,模 式圖中節點是概念實體,邊是概念間的語義關係,如 part-of;資料圖對物理世界層面進行描述,強調一系列客觀事實。資料圖中的節點有兩類,一是模式圖中的概念實體,二是描述性字串,資料圖中的邊是具體事實的語義描述;模式圖和資料圖之間的關係指資料圖的例項與模式圖的概念之間的對應,或者說模式圖是資料圖的模具。
著名的通用知識圖譜中有,谷歌“Knowledge Graph”、搜狗“知立方”、YAGO、DBpedia等,它們具有規模大、領域寬,包含大量常識等特點。目前,醫學是知識圖譜應用最 廣的垂直領域之一,如上海曙光醫院構建的中醫藥知識圖譜、本體醫療知識庫 SNOMED-CT,IBM Watson Health等應用近兩年也開始進入人們視線。
知識圖譜是智慧大資料的前沿研究問題,它以獨有的技術優勢順應了資訊化時代的發展,比如漸增式的資料模式設計;良好的資料整合;現有 RDF、OWL等標準支援;語義搜尋和知識推理能力等。在醫學領域,隨著區域衛生資訊化及醫療資訊系統的發展,積累了海量的醫學資料。如何從這些資料中提煉資訊,並加以管理、共享及應用,是推進醫學智慧化的關鍵問題,是醫學知識檢索、臨床診斷、醫療質量管理、電子病歷
及健康檔案智慧化處理的基礎。
本文首先介紹了醫學知識圖譜的構建技術,主要涉及到醫學知識表示;醫學知識抽取,包括實體、關係、屬性的抽取;醫學知識融合;醫學知識推理和質量評估五個部分。然後介紹了基於醫學知識圖譜的包括檢索、問答、決策等的應用現狀。最後對醫學知識圖譜的研究、應用重點,面臨的挑戰以及未來 的發展趨勢進行了展望。
1 醫學知識圖譜構建
本文將醫學知識圖譜構建技術歸納為五部分,即醫學知識的表示、抽取、融合、推理以及質量評估。通過從大量的結構化或非結構化的醫學資料中提取出實體、關係、屬性等知識圖譜的組成元素,選擇合理高效的方式存入知識庫。醫學知識融合對醫學知識庫內容進行消歧和連結,增強知識庫內部的邏輯性和表達能力,並通過人工或自動的方式為醫學知識圖譜更新舊知識或補充新知識。藉助知識推理,推出缺失事實,自動完成疾病診斷與治療。質量評估則是保障資料的重要手段,提高醫學知識圖譜的可信度和準確度。
1.1 醫學知識表示
知識表示是為描述世界所做的一組約定,是知識符號化、 形式化、模式化的過程,主要研究計算機儲存知識的方法, 其表示方式影響系統的知識獲取、儲存及運用的效率。然而醫學資料種類繁雜,儲存方式不一,電子病歷格式和標準不同,經常涉及交叉領域等特點,導致醫學領域與其他領域在知識表示方面有所差異,同時也給醫學領域的知識表示帶來極大的挑戰。
早期醫療知識庫運用的知識表示方法有:謂詞邏輯表示法,產生式表示法,框架表示法,語義網表示法等等。比如, SNOMED-CT,早期的 MYCIN 系統,大腸桿菌資料庫 EcoCyc等。隨著知識圖譜中知識增長、關係複雜化,這些方法由於表示能力有限且缺乏靈活性,不再作為主要的知識表示方法,更多是作為醫學知識表示的輔助或補充。
本體表示法以網路的形式表示知識,即以(實體 1,關係, 實體 2)三元組來表示相關聯的兩個節點(實體),在知識圖譜提出之後逐漸得到認可。它借鑑了語義網表示法但又有所區別:本體關注的是實體固有特徵,比後者更聚焦,更深入,因而也具有更大的發展潛力。而本體的描述語言也多種多樣:主 要有RDF和RDF-S、DAML、OWL等。使用本體表示醫學術語可以提升資料整合能力:建立強大、可互操作的醫療資訊系統;滿足重用共享傳輸醫療資料的需求;提供基於不同語義標準的統計聚合。醫學領域本體的構建,需要深入分析醫學術語的結構和概念,才能將晦澀甚至是跨語言的醫學知識有效地表達出來。目前的醫學知識本體庫有:醫學概念知識庫LinkBase,TAMBIS本體庫(TaO)等等。
知識圖譜的節點個數影響著網路的結構複雜度及推理的效率和難度。知識表示學習藉助機器學習,將研究物件的語義資訊表示為稠密低維向量,有效解決資料稀疏問題,從而提升知識融合和推理效能[。低維向量表示是一種分散式表示 (distributed representation),它模仿人腦中使用多個神經元儲存物件的工作機制,使用多維度向量表示物件的語義資訊。知識表示學習中的代表模型有:結構化表示法(Structure Embedding,SE),單層神經網路模型(single layer model,SLM),隱變數模型(latent
factor model,LFM),基於TransE的翻譯模型等等。這些模型考慮實體間的協同性和計算開銷,用向量表示實體,再對錶示實體的向量或關係進行相應的矩陣變換,提出評價函式來衡量實體間的相關性,併為 之後的知識補全和推理提供重要參考。Kleyko 等人證明了分散式表示方法表示醫學影象進行分類精度能夠與最佳經典方法相同;Henriksson 等人對比使用多種知識表示方法表示 EHR 中 4 類記錄:診斷記錄,藥物使用記錄,治療方法和病程記錄。顯然,知識表示學習無疑為醫學知識圖譜的知識表示開闢了新 思路。
1.2 醫學知識抽取
醫學知識圖譜的構建主要是從非結構化資料中人工或自動地提取實體、關係和屬性。人工提取是通過專家依據一定規則收集並整理相關資訊,提取知識。目前通過人工構建的醫學知識庫包括臨床醫學知識庫、SNOMED-CT、ICD-10 等。自動提取則是利用機器學習、人工智慧、資料探勘等資訊抽取技術,從資料來源中自動提取出知識圖譜的基本組成元素。自動構建醫 學知識庫的典型例子有一體化醫學語言系統 UMLS。人工提取的代價太大,知識的自動提取是目前重點的研究方向,也是將來構建知識圖譜的趨勢。本節主要介紹如何自動從資料來源中抽取知識和資訊,包括實體、關係和屬性抽取。
1.2.1 實體抽取
識別文字中的生物醫學實體,其目的在於通過識別關鍵概念進一步提取關係和其他資訊,並將識別的概念以標準化的形式表示出來。醫學領域的實體抽取是從醫學資料來源中提取出特定型別的命名實體。本節將醫學實體的抽取方法歸納為三類:基於醫學詞典及規則的方法、基於醫學資料來源的統計學和機器學習方法以及深度學習方法。
1)基於醫學詞典及規則的方法
該方法通過人工定義規則和模式匹配生成詞典或使用現有醫學詞典從語料中抽取醫學實體,該方法是具有挑戰性的。首先,目前沒有完整的字典囊括所有型別的生物命名實體,所以簡單的文字匹配演算法是不足以應對實體識別的。其次,相同的單詞或短語其意義可根據上下文的改變而指代不同的物體(如,
鐵蛋白可以是生物物質或實驗室測試方法)。再次,許多生物或 藥物實體同時擁有多個名稱(如 PTEN 和 MMAC指代相同的基因)。因此,基於醫學詞典及規則只在最早期被廣泛使用。 Friedman等通過自定義語義模式和語法來識別電子病歷中的醫學資訊。Wu等人使用了 CHV和 SNOMED-CT兩個醫學詞典得到了不錯的實驗結果。雖然該方法能達到很高的準確度,但無法徹底解決上述問題,也過分依賴專家編寫的詞典和規則,無法適應醫學領域詞彙不斷湧現的現實情況。
2)基於醫學資料來源和數學模型的機器學習方法
該方法通過使用統計學和機器學習方法,結合醫學資料來源的特點訓練模型,進行實體識別。在英文醫學實體抽取方面, 最具代表性的標註語料是 I2B2 2010釋出的英文電子病歷標註語料。另外,還有 SemEval、NTCIR等評測,以及 NCBI語料庫等,都提供了英文醫學實體標註資料。
目前常用方法有隱馬爾可夫模型(HMM),條件隨機場模 型(CRF),支援向量機模型(SVM)等。Kazama 等人使用 SVM模型進行生物醫學命名實體識別,引入了 POS,詞快取,無監督訓練得到的 HMM狀態等特徵。該方法在 GENIA 語料庫中準確率高於最大熵標記方法,並能較高效地應用於大規模語料集。Zhou等人通過一系列特徵訓練 HMM 模型,包括詞的構成特徵,形態特徵,POS,語義觸發,文獻內名稱別名等。其識別準確率達66.5%,在 GENIA語料庫中的召回率達66.6%。 綜合以上方法,Chen 和 Friedman利用MEDLEE系統來識別與生物醫學文字中與表型資訊相對應的短語。該系統使用自然語言技術來識別期刊文章摘要中存在的表型短語。生物醫學的實體識別常常可使用較小的表型相關術語的知識庫。Chen 和 Friedman自動匯入與語義類別相關的數千個 UMLS 術語,如細胞體功能和細胞功能障礙,以及哺乳動物本體中的幾百個術語;並手動添加了幾百個術語。實驗結果表明,其實體識別準 確率達 64.0%,召回率達 77.1%。雖然結果不高,但為之後的研究人員提供了一條可行的思路。
在醫學領域,命名實體識別的痛點在於資料質量的良莠不齊以及人工標註的專業性要求高。目前有專門研究如何降低對於資料標註依賴的研究,其原理主要是利用海量未標註資料持續提升模型效能,從小樣本中進行學習,自我探索逐步學習新知識,形成一個互動學習過程。
3)深度學習方法
深度學習近年來開始被廣泛應用於命名實體識別,最具代表性的模型是2011年Collobert提出的一個深層神經網路模型,其效果和效能超過了傳統演算法。Sahu等人所提出的 CNN 與 RNN 級聯的方法生成詞嵌入特徵,其結果優於目前最好的演算法且不需要過多的特徵工程。 在醫學領域,We 等人基於CRF和雙向RNN生成特徵, 再使用SVM 進行疾病命名實體識別。目前醫學資訊命名實體識別任務中最主流的深度學習模型是 BiLSTM-CRF 模型,Jagannatha等人對比了 CRF,BiLSTM,BiLSTM-CRF 三種模型,以及一些它們的改進模型,在英文電子病歷命名實體識別的效果,實驗結果表明所有基於 LSTM 的模型都比 CRF效果更好,並且 BiLSTM 結合 CRF 模型能夠進一步提高評測結果 2%-5%的準確率。
1.2.2 實體抽取
本文將醫學實體關係抽取歸結為兩類: a)同類型醫學實體層級關係抽取,如疾病的“腸胃病-慢性胃炎”等;b)不同型別關係抽取,如“疾病-症狀”等。
1)同類型醫學實體層級關係抽取
同類型醫學實體層級關係相對較為單一,主要是 is-a 和 part-of關係。由於醫學有其嚴謹的學科體系和行業規範,因此此類關係往往在醫學詞典、百科、資訊標準中進行。 ICD-10、SNOMED等醫療詞典或醫療資料庫重點關注醫學專業術語、受限詞彙的分類和概念標準化工作,權威且涵蓋範圍廣,在數量和質量上都有所保障,被醫療行業廣泛認可,是抽取層級間實體關係的首選來源。針對具體的醫療詞典、知識庫提供的資料格式和開放 API 介面,可通過爬蟲、正則表示式、D2R對映等技術從中抽取分層結構,抽取三元組來匹配、 新增上下位關係。
2)不同型別醫學實體關係抽取
不同型別醫學實體間的語義關係識別大致基於兩大不同資料來源而實現。一是百科或其他結構化資料來源,如 Medline,UMLS 等;二是半結構化的電子病歷。
醫學實體型別相對有限(主要是疾病、症狀、治療、藥品等),目前通常在兩個實體間預定義好要抽取的關係型別,再將抽取任務轉換為分類問題來處理。如何預定義實體關係目前尚未有統一的標準,這取決於醫學知識圖譜構建過程中模式圖的設定、實體識別情況、語料來源、構建目的及應用場景等,如 在 I2B2 2010 評測中,將電子病歷中的實體關係分成了醫療問題與醫療問題、醫療問題與治療、醫療問題與檢查三類。
近幾年,Uzuner 團隊在句子層面抽取了六類醫療實體關係,使用實體順序和距離、連結語法和詞彙特徵來訓練 6 個 SVM 分類器,通過對比實驗,指出詞彙特徵在實體關係識別中 的重要作用。在此基礎上,基於Medline 摘要,Frunza 等抽取了疾病、治療間的三種關係,並引入 UMLS 生物和醫療實體特徵,取得了不錯的實驗結果。而 Abacha 等在同樣的任 務中使用人工模板和 SVM 的混合模型,取得了 94.07%的平均 F值。該研究指出,在樣本數較少時,模板匹配方法起主要作用,而面向海量樣本時則 SVM 起主要作用。
此外,在關係識別的分類方法對比研究中,Bruijn 等人在 I2B2 2010 評測中對比研究了有監督分類和基於 Self-training 的半監督分類的表現,表明了UMLS、依存句法分析結果和未標記資料對關係識別有著顯著影響。除了預定義關係然後轉換為分類任務來處理的方法,還有少量研究採用了模板匹配、統計共現等方法來抽取關係。如在 Medline 摘要中通過統計基因名的共現來提取關係,並根據共現矩陣生成了關係圖,或在 Medline 摘要中通過語法依賴樹進行圖的模式匹配,進而抽取因果關係。
1.2.3 屬性抽取
屬性抽取是指對屬性和屬性值對(attribute-value pair, AVP)的抽取,其中屬性的抽取是指為醫學實體構造屬性列表,如藥品的屬性包括適應症、禁忌症等。屬性值的抽取是指為各實體附加具體的屬性值,如阿莫西林是青黴素過敏者禁用。常見的抽取方法包括從開放連結資料提取、從結構化資料庫提取、從百科類站點提取、從垂直網站進行包裝器歸納、以及利用模式匹配從查詢日誌中提取等。對於醫學知識圖譜來說,主要通過上文提及的醫學詞典和主流醫學站點來進行。值得一提的是,前者關於屬性和屬性值對的描述相對比較稀疏(特別對於中文領域),因此需從主流醫學站點進一步抽取整合。
對於 AVP 結構化程度比較高的網站,如維基百科、A+醫 學百科6等,有規整的資訊框(InfoBox),可以方便地爬取識別InfoBox 部分,直接提取該實體對應的屬性名和屬性值,置信度高,但規模較小。而對於更多形式各異、半結構化的醫藥站點和垂直文字來說,通常是構建面向站點的包裝器,從待抽取 站點取樣並標註幾個典型的詳細頁面(Detailed Pages),利用這些頁面通過模式學習自動構建出一個或多個類 Xpath 表示的模式,然後將其應用在該站點的其他詳細頁面中從而實現自動化 的 AVP 抽取。
1.3 醫學知識融合
知識融合是高層次的知識組織,使不同來源的知識在同一框架規範下進行資料整合、消歧、加工、推理驗證、更新等 步驟7,目的是解決知識複用的問題,增強知識庫內部的邏輯性和表達能力。針對知識圖譜中不同粒度的知識物件,知識融合 可細分為實體對齊、知識庫的融合等。
1.3.1 實體對齊
醫療知識圖譜中知識來源的多樣性導致了知識重複、知識質量良莠不齊、知識間關聯不夠明確等問題。 醫學實體在不同的資料來源中存在嚴重的多元指代問題,例如阿奇黴素在百度百科中被稱為希舒美,在 A+醫學百科中別名有阿齊黴素、阿奇紅黴素、疊氮紅黴素等,商品名有泰力特、希舒美、舒美特等。 因此實體對齊是醫學知識融合中非常重要的一步。實體對齊是判斷多源異構資料中的實體是否指向真實世界同一物件的過程。
現有的對齊演算法有成對實體對齊與集體實體對齊兩類。成對實體對齊方法只考慮例項及其屬性相似度,包括基於傳統概率模型的實體對齊方法和基於機器學習的實體對齊方法。前者以Fellegi等人將基於屬性相似性評分的實體對齊問題轉換為分類問題的工作為基礎,至今仍應用於很多實體對齊工作中;後者常用的對齊方法有分類迴歸樹演算法、ID3 決策樹演算法、SVM 分類方法、整合學習框架等基於有監督學習的方法和無監督學習下的層次圖模型等基於無監督學習的方法。
集體實體對齊在成對實體對齊的基礎上在計算實體相似度時加入了實體間的相互關係,分為區域性集體實體對齊與全域性集體實體對齊。前者典型演算法是使用向量空間模型和餘弦相似度計算實體相似性,準確率不高,但召回率和執行速度比較可觀。後者通過不同匹配決策之間的相互影響來調整實體間的相似度,又分為基於相似性傳播和基於概率模型的集體實體對齊方法。基於相似性傳播的方法通過初始匹配以“bootstrapping” 方式迭代地產生新的匹配[。Lacoste-Julien 等人在此基礎上提出的 SiGMa 演算法更適合大規模知識庫,但需要一定的人工干預。基於概率模型的方法通過為實體匹配關係和決策建立複雜的概率模型,包括關係貝葉斯網路模型、LDA 分配模型、CRF 模型和 Markov邏輯網模型等,可以提高匹配效果,但效率還有待提高。
當來自不同知識源的資料出現數據衝突時,需要考慮知識源的可靠性以及不同資訊在各知識源中出現的頻度等因素。阮彤等人]在構建中醫藥知識圖譜時對資料來源的可信度進行評分,結合資料在不同來源中出現的次數,對資料項進行排序, 並補充到相應的屬性值欄位中。
隨著知識庫規模擴大和實體數量的增加,知識庫中的實體對齊越來越受到重視,如何準確高效地實體對齊是未來知識融 合的研究重點之一。
1.3.2 知識庫融合
構建知識庫時需求和設計理念不同會導致知識庫中資料的多樣性和異構性。對於龐雜的醫療知識來說,當前多數知識庫都是針對某個科室或者某類疾病或藥物來構建的,比如脾胃病 知識庫[60]、中醫藥知識圖譜等,若要得到更完善的醫療知識圖譜,需要對不同的醫療知識庫進行融合以及將尚未涵蓋的知識和不斷產生的新知識融合到已有的知識圖譜中。醫療知識圖譜的構建是一個不斷迭代更新的過程。
知識庫融合的研究工作始於“本體匹配”,初期針對本體類別的語義相似性進行匹配。隨著知識庫規模擴大和結構複雜化,類別、屬性以及實體和它們之間的相互關係等也成為考慮的因素。Suchanek 等人提出的基於概率的知識融合演算法PAIRS以兩個知識庫作為輸入,能夠高效地跨本體同時對齊類別、例項、屬性和關係。但 PARIS 需要一定的人工參與。由於人類的精力和認知有限,自動地從 Web 中獲取知識並進行融合十分必要。Dong 等人提出了將以消除歧義的三元組的形式從整個網路中提取事實與使用 PRA 和神經網路模型兩種方法從 Freebase 圖得到的先驗知識融合在一起的知識融合方法, 可達到自動構建 Web 規模的概率知識庫的水準,提升了效率。
在醫療領域,Dieng-Kuntz 等人將醫療資料庫轉換為醫療本體,然後對其他文字語料使用半自動的語言工具進行語義提取,在人工控制下對本體進行擴充套件和補全,並用啟發式規則自動建立知識的概念層次。Baorto 等人將資料來源新增到臨床資訊系統時先確定資料的控制術語是否已經存在,然後將新術語新增到 MED( Medical Entities Dictionary),同時建立審計流程以保證引入資料的一致性。
目前醫療領域知識圖譜的融合技術雖有一些有意義的嘗試,但仍需要大量人工干預,高效的知識融合演算法有待進一步研究。醫療領域的知識圖譜也可以考慮採用眾包的方式進行知識融合。
1.4 醫學知識推理
推理是從已有知識中挖掘出隱含資訊,而知識推理更注重知識與方法的選擇與運用,儘量減少人工參與,推出缺失事實,完成問題求解。在醫學知識圖譜中,知識推理幫助醫生完成病患資料蒐集、疾病診斷與治療,控制醫療差錯率。然而,即使對於相同的疾病,醫生也會根據病人狀況作出不同的診斷,即
醫學知識圖譜必須處理大量重複矛盾的資訊,這就增加了構建醫學推理模型的複雜性。 傳統的知識推理方法有基於描述邏輯(Description Logic, DL)推理,基於規則推理(Rule-based Reasoning,CBR)與基於案例推理(Case-based Reasoning,CBR)等等。Bousquet C 等人使用基於 DAML+OIL 描述邏輯執行術語推理來改進藥 物警戒系統中訊號檢測;Chen R 等人採用 RBR 方法開發出糖尿病診斷系統以提供用藥建議;CARE-PARNER 系統則是基於CBR給出診斷結果與治療方案等等。
傳統的知識推理方法雖在一定程度推動醫療診斷自動化程序,但是也存在學習能力不足,資料利用率不高,準確率待提升等明顯缺陷,遠未達到實際應用的要求。面對日益增長的醫療資料,診斷時不可避免地會出現資訊遺漏,診斷時間延長等 問題。而人工智慧,尤其是人工神經網路(Artificial Neural Networks,ANNs)擁有從海量資料探勘有用資訊的天然優勢。 ART-KNN(ART-Kohonen neural network)與 CBR 相結合可以提高後者在推理故障情況的效率和準確度。神經張量網路模型(neural tensor networks)在 FreeBase 等開放本體庫上對未知關係推理的準確率可達 90.0%。Karegowda A G 等人在 Pima 印第安人糖尿病知識庫(PIDD)中使用了遺傳演算法 (Genetic Algorithm,GA)和反向傳播網路(Back Propatation Network,BPN)的混合模型,診斷準確率提高 7%左右。
與深度學習將知識圖譜作為資料來源不同,基於圖的推理則將知識圖譜視為圖,以實體為節點,以關係或屬性為邊,利用關係路徑來找到節點間的多步路徑,Path Ranking 演算法,PTransE就是利用這樣的原理來推斷實體間的語義關係。圖資料庫使知識圖譜能以圖的資料結構進行儲存,與傳統資料庫相比,前者在高維度關聯查詢的效率明顯提高。然而圖資料庫尚未成熟,暫無法完成太複雜的知識推理。較為流行的圖 資料庫有 Neo4j,Titan,OrientDB和 ArangoDB等。王昊奮等人在醫療質量與患者安全輔助監控系統中,就將醫療本體的資料存放在 AllegroGraph 圖資料庫中。
與通用知識圖譜相類似,醫學知識圖譜也還有對跨知識庫知識推理、基於模糊本體的知識推理等問題的研究。
1.5 質量評估
資料的質量直接影響資料的運用,質量評估是保障資料的重要手段,可以量化資料質量,篩選出置信度高的資料。醫學診斷對資料和醫學知識圖譜的可信度和準確度提出了更高的要求。質量評估並不是構建醫療知識圖譜的最後一步,而是貫穿 在知識圖譜的整個生命週期:早在 2013 年本體峰會(Ontology Summit2013)就對本體的生命週期的各個階段所要進行的評估工作做了相關的說明。
目前,知識圖譜/本體的評估方法可分為四大類:基於黃金 標準的方法,基於本體任務/應用的方法,資料驅動的方法,和基於指標的方法。表 1 對比了這幾種本體評估方法。
具體到醫學領域,本體評估方法因應用場景而異:Clarke 等人使用基於任務評估方法來分析基因本體的從 2004 至 2012 年的效能;Bright 等使用本體設計原則和領域專家審查意見 作為指標來評估本體在抗生素決策支援系統中的效果;Gordon 等通過將電子病歷,診斷案例和臨床實踐等來構造“黃 金標準”來評估,改進傳染疾病本體 BCIDO等。為方便使用者進行本體評估和加快本體評估自動化程序,本體評估工具封裝了評估方法。不同的工具從不同的視角對本體的不同指標進行評估。針對評估的側重點,選擇合適的工具才能對本體作出 符合應用要求的評估。
比較常用的本體評估工具有:ODEval,OOPS,OntoManager,Core等。除了醫學本體,醫學知識圖譜還涵蓋其他複雜多樣的資訊,因此,質量評估還包括對資料質量, 專家資訊,知識庫等方面進行評估。
相比通用領域的知識圖譜,醫學領域的知識圖譜評估存在以下特殊性:a)鑑於醫學的嚴謹性,評估往往綜合多種方法進行多角度的評估,如 Bright 等利用本體設計原則和領域專家審查來進行等級評估; b)往往需設定等級較高的警告(alerts),如與處方相關的警報包括抗生素-微生物不匹配警報、用藥過敏 警報、非推薦的經驗性抗生素治療警報、治療方案-症狀間不匹配警報等;c)除了從形式方面評價知識圖譜以外,也注重於檢驗知識差距,因為知識的全面性和準確性將直接影響臨床決策支援的置信度。此外,醫學知識圖譜是融合電腦科學等眾多學科的交叉學科,評價指標不能簡單地照搬某個的學科的指標,而是應該綜合考慮眾多因素。知識圖譜/本體評估方法如下表所示:
因此,除了借鑑通用知識圖譜質量評估方法,Ammenwerth E 等人結合醫學本身的特點,就評價醫學知識圖譜時面臨的評價物件的複雜度,評價指標與利益相關者的關係,評價動機三 大問題出發,分別提出解決方案。
不難看出,醫學知識圖譜質量評估的研究主要集中在方法,工具以及資料的研究這三方面。然而,現有的質量評估缺乏系統化,鮮有從醫學領域特性的角度對知識圖譜進行綜合評估,多是借鑑通用的質量評估方法從微觀上去評估某一項指標,具有分散性,片面性。
2 醫學知識圖譜應用
隨著人們對健康問題的愈發重視,醫療保健費用、需求的增長與優質醫療資源不足之間的矛盾亟待解決。對此,由於近幾年人工智慧的飛速發展以及精準醫療、智慧醫療的提出,醫學知識圖譜應用正受到國內外企業、學界的廣泛關注,有望帶來更廉價、高效、精準的醫療建議和診斷。本文可以從已有的醫學知識圖譜的應用中一窺其巨大潛力。
2.1 醫療資訊搜尋引擎
傳統的醫療搜尋引擎需要對百億計的醫療相關網頁進行檢索、儲存、處理,但難以理解使用者的語義查詢。而基於醫學知識圖譜的搜尋,不僅提供使用者網頁間超連結的文件關係,還包 括不同型別實體間豐富的語義關係。
知識圖譜對於傳統資訊搜尋的優化主要體現在查詢擴充套件,從知識圖譜中抽取與查詢相關的若干實體及實體關係和屬性進行擴充套件查詢,以更好的理解使用者的查詢需求。Aronso 等人較早將資訊檢索技術結合 UMLS 進行查詢擴充套件,並應用於醫學文獻檢索。 Díazgaliano 等人在生物醫學資訊搜尋中加入了醫學本體 MeSH來進行查詢擴充套件,包含同義、近似同義和密切 相關概念的實體和關係,改進了資訊檢索的效果。Huang 等人在醫學本體的基礎上,使用 LSA 自動挖掘實體間的語義關係,如藥物誘導疾病關係、藥物間相互作用關係等,對實體關係、實體-實體的查詢進行了擴充套件。中國中醫科學院的賈李蓉 等於 2002 年開始研製中醫藥學語言系統,構建了包含12萬多個概念、60餘萬術語以及127餘萬語義關係的中醫藥知識圖譜。它通過在檢索系統中嵌入“知識卡片”以及一個“知識地圖”展示系統,將中醫領域概念視覺化,使用者可以選擇其中 的概念開始構造查詢或搜尋。
目前,國外典型的醫療專用搜索引擎有 WebMd8、 OmniMedicalSearch 9 、 Healthline10等 。 其 中 WebMd 和 OmniMedicalSearch 分別屬於全文索引和目錄索引型別的傳統 搜尋引擎,Healthline 是一個基於知識庫的醫學資訊搜尋引擎, 其知識庫涵蓋超 850,000 項醫療元資料和 50,000 條相互關聯 的概念。Google 率先提出將知識圖譜應用於搜尋,在醫療搜尋 應用上,當用戶搜尋疾病或症狀時,Google 提供超過 400 種健康狀況的資料,通過一張資訊卡片,給出典型症狀以及如是否嚴重、是否具有傳染性、影響哪些年齡段的人等細節資訊。而國內主流醫療搜尋引擎有搜狗名醫、360良醫,這兩者都是結合了元搜尋索引方式和知識庫的搜尋引擎,聚合權威的知識、醫療、學術網站,為使用者提供包括維基百科、知乎問答、國際 前沿學術論文等權威、真實內容。
基於知識圖譜的搜尋引擎已成為現今搜尋引擎的主要形式,其技術框架也在不斷改進和完善。目前的醫療搜尋引擎主要受限於醫學知識圖譜的知識數量和質量,構建完備的醫學知 識圖譜是其關鍵。
2.2 醫療問答系統
問答系統也是知識圖譜的典型應用場景。目前在基於知識圖譜的問答系統中採用的方法主要包括:基於資訊提取的方法,利用問句資訊結合知識庫資源獲取候選答案;基於語義解析的方法,將自然語言問句解析成一種邏輯表達形式,通過這種結構化表達從知識庫中尋找答案;基於向量空間建模的方法,使用向量空間描述自然語言問句以及知識圖譜中的實體和關係,通過機器學習、深度學習等方法生成問答模型進行回答。
早期的醫療問答系統的研究主要集中於資訊檢索、提取和摘要技術。知識圖譜概念的提出,致使問答系統研究熱點轉移到基於知識圖譜的問答系統研究。Terol等人使用了 UMLS 以及 WordNet 兩種知識庫,設定了 10 類醫學問題型別,利用自然語言處理技術的應用來生成和處理問題的邏輯形式, 從知識庫中提取答案。Abacha 等人對比了基於醫學本體的 醫療問答系統,結合醫學本體、領域知識,NLP
相關技術和語義關係,實現了一個醫療自動問答系統。華東理工大學阮彤、 王昊奮等人與上海曙光醫院合作構建了包括疾病庫、證庫、
症狀庫、中草藥庫和方劑庫的中醫藥知識圖譜,並基於該知識圖譜進行中醫藥問答和輔助開藥。該系統通過基於知識圖譜的分詞、模板匹配、模板的翻譯執行來回答概念、實體、屬性、屬性值的模板組合問題,並將圖譜中儲存的資料自動轉換成推理引擎適用的推理規則,再結合醫生工作站傳來的病人事實資料,輔助醫生開方。
在醫療垂直領域的問答系統研究中,受限於現有醫學知識圖譜的推理能力,以及醫學知識表示的複雜性,尚未出現重大的突破。而反觀開放領域,對特定領域專業知識要求不高的情 況下,IBM 的 Watson 系統、微軟的小冰都是融合傳統問答系統和知識圖譜的成功案例。
2.3 醫療決策支援系統
藉助醫療知識圖譜,醫療決策支援系統可以根據患者症狀描述及化驗資料,給出智慧診斷、治療方案推薦及轉診指南,還可以針對醫生的診療方案進行分析、查漏補缺,減少甚至避免誤診。
Ángel 等人設計了一個本體驅動的,基於邏輯推理和概 率統計優化的醫學鑑別診斷系統 ODDIN,系統的知識庫框架包含一個邏輯規則知識庫和一個醫學本體知識庫,在邏輯規則知識庫中,定義了四種邏輯規則,而醫學本體知識庫則是綜合了 多個醫學本體資源,支援多種本體表示形式,包括 RDF、RDFS、 OWL 和 SPARQL,診斷方法的核心是基於貝葉斯理論進行改
進。Martnez-Romero 等人[106]設計的 iOSC3 系統是一個基於本體針對急性心臟病進行智慧監控和診斷的系統,該系統分析患 者的狀況並提供最佳治療方案的建議,其知識庫由 OWL 本體 和表示專家知識的一組 SWRL 規則所構成。王昊奮、張金康等人通過蒐集中文開放連結資料中的醫療資訊(ICD9、ICD10 等)和主流醫學站點中的醫療知識(39 健康網、尋醫問藥等)構建了醫療知識圖譜,並將其應用於上海林康醫療資訊科技有限公司的醫療質量與患者安全輔助監控系統和處方稽核智慧系統中,前者基於知識圖譜來進行抗生素不合理使用的監控、危
急值預測,後者快速判斷處方為合理、疑似不合理和不規範處 方,從而促進用藥的合理性。
將知識圖譜應用於醫療決策是目前的研究熱點。但是,在實際應用中,主要存在著兩方面的問題:一是缺少完備的全科醫學知識圖譜,二是醫療決策的可靠性。對於前者,目前基於知識圖譜實際應用的醫療決策系統,主要還是針對於特定疾病型別的決策,無法廣泛應用,如 IBM 的 Watson Health 主要面向腫瘤和癌症的決策支援,基於巨大的知識庫和強大的認知計算能力,為臨床醫師提供快速的、個性化的循證腫瘤治療方案。對於後者,醫療決策是直接關係到使用者的身體健康問題,依靠人工智慧進行醫療決策對結果的準確性和可靠性有更高的要求。現階段,基於知識圖譜的醫療決策只是扮演著支援和輔助的角色。
3 挑戰及研究展望
知識圖譜是語義網與知識庫的融合與昇華。知識圖譜的優勢是具備強大的語義處理與開放互聯能力。對醫學領域而言,由於其專業性、規範性、術語有限性等特點,可以從醫學詞典、醫學標準、電子病歷等來源獲取到高質量資料;另外在科教行業中,存在著知識管理、語義檢索、商業分析、決策支援等需
求,醫學知識圖譜的研究能推進海量資料的智慧處理,催生上層智慧醫學的應用。醫學知識圖譜是大資料與醫學的結合,將 成為知識圖譜和大資料智慧的前沿問題。
1)人工智慧
人工智慧,尤其是深度學習已經在計算機視覺、語音識別、機器翻譯等領域超越了傳統演算法,而其在醫學領域中的知識融合與推理等方面的研究潛力還有待挖掘。擁有強大學習能力的深度學習與有著豐富資料儲備的知識庫相結合,將逐步擴充套件認 知能力,為大規模知識圖譜找到更寬廣的應用場景。
2)複雜多樣的資料來源(跨語言,開放域)
網際網路和電子病例帶來了醫療資料的爆炸性增長,然而這些資料在語種、主題、儲存等方面都存在較大差異。現有的研究成果多集中在特定資料集上,普遍存在演算法準確率低、限制條件多、擴充套件性差等問題,同時知識複用、實體消歧等問題也有待進一步研究。跨語言醫學知識圖譜成為當前的研究熱點, 我國的研究者更應發揮自身在中文資訊處理方面的優勢。
3)眾包技術
眾包反饋機制不僅可以有效提高資料質量,還能作為質量評估的重要補充。眾包平臺與知識庫的有機結合,能夠修 正機器無法識別的錯誤,提高知識圖譜的質量與效能。39 健康網,尋醫問藥網的問答區都有專業人士線上解答問題;A+醫百科中的藥物資訊由醫學研究者共同編輯完成。而另一方面,如何評估和保障提交結果的質量,也開始受到國內外學者的關 注。
4)視覺化
知識圖譜視覺化的真正意義在於讓人直觀地瞭解推理的過程與結果。而醫學知識圖譜視覺化站在醫生或病人的立場,尋求最佳的知識展示方案:病人能夠理解診斷結果,醫生能夠利 用知識圖譜的動態推理過程作出合理診斷。
4 結束語
隨著醫療資訊化的發展,醫學電子資料有了一定的積累。構建醫療領域的知識圖譜,可以從海量資料中提煉出醫療知識,併合理高效地對其進行管理、共享及應用,對當今的醫療行業有著重要意義,也是很多企業和研究機構的研究熱點。本文從醫療知識圖譜的構建與應用角度,綜述了醫療知識圖譜的相關
背景、現有技術和應用,總結了目前醫療知識圖譜面臨的主要 挑戰,並對其未來的研究方向進行了展望。
醫學知識圖譜將知識圖譜與醫學知識進行結合,定會推進醫學資料的自動化與智慧化處理,為醫療行業帶來新的發展契機。雖然目前對於醫療知識圖譜的研究工作有了很多很有意義的嘗試,但總的來說還不夠完善和深入,需要更進一步的研究。希望本文能夠為醫療知識圖譜在國內的研究提供一些幫助與啟發。