1. 程式人生 > 其它 >A knowledge representation model based on the geographic spatiotemporal process

A knowledge representation model based on the geographic spatiotemporal process

A knowledge representation model based on the geographic spatiotemporal process(基於地理時空過程的知識表示模型)

0 Abstract

知識圖(KGs)將實體和關係表示為計算表網路,對於發現隱藏的知識和模式具有重要價值。地理知識圖譜主要描述靜態事實,難以表示變化,極大地限制了其在地理時空過程中的應用。本研究通過分析地理要素的時空特徵和演化,提出了地理演化知識圖(GEKG)。它的表示模型有五個核心元素: 時間、地理事件 (geo-event) 、地理實體 (geo-entity) 、活動和屬性,並定義了六個關係: 邏輯、語義、進化和時間關係、參與和包含。它建立了一個分層的立方模型結構,每個時間層從最早的地理事件開始垂直和水平延伸。垂直擴充套件是指不同型別元素之間的聯絡,例如地理實體和地理事件之間的參與關係。水平擴充套件表示相同型別的元素之間的關聯,例如地理實體之間的語義關係。對於不同的層,元素的時空差異產生了演化關係。 最後,GEKG與又一個大本體(YAGO)和地理知識圖譜(GeoKG)的比較表明,GEKG在表示地理演化知識、揭示地理要素的演化機制和演化原因方面更具優勢。

Chart

Fig 1:模型的圖形結構。

Fig 2:每個元素的表示示例。(a) 地理事件之間的關係(b)地理實體之間的屬性和關係,以及(c)地理事件的結構。

Fig 3:澳大利亞季風區發展的“同期元素之間的關聯”示例。

Fig 4:不同層次之間的關聯。(a) 澳大利亞季風區發展的 “地理事件的關聯” 示例。(b) 印度南端發展的“地緣實體演化”示例。(c) 東亞季風區發展的 “地理事件與地理實體之間的聯絡” 的例子。

Fig 5:以“印度大陸的演變”為例的 YAGO 結構。

Fig 6:“印度大陸和印度南端的演變” 的GeoKG結構。

Table 1:三類有關季風區發展的查詢問題。

Fig 7:(a) “印度半島演變”案例的 GEKG 結構。 (b) (a) 的平面表示。

Table 2:YAGO、GeoKG和GEKG對錶1中提出的問題的檢索結果。結果以粗體顯示,以下內容解釋了每個答案。 YAGO 的內容是三元組以獲得結果。 GeoKG 的內容是相關的物件和狀態。 GEKG的解釋根據公式(1)至(6)表示。

Table 3:YAGO、GeoKG 和 GEKG 的準確度以季風區為例。 根據結果與正確答案的匹配程度來確定。 百分比分數表示包含多少個單詞。

Table 4:YAGO、GeoKG、GEKG綜合能力對比。 “Strong”是指準確完整的答案,沒有重複。 “Relatively strong”是指答案正確完整,但表達不夠清楚或有重複。 “Moderate”表示結果不完整或某些元件不準確。 “Weak”表示結果與問題不匹配。

Table 5:YAGO、GeoKG和GEKG的應用及侷限性。

4.2.3 Discussion

根據三張圖的特點,將它們的侷限性和應用場景對比如下(表5):

問一個問題:“Q1:南非季風區在哪裡?”舉個例子。YAGO和GEKG的結果是“從赤道到20°S”。它們都可以簡潔有效地表示靜態事實。GeoKG儲存了大量的重複項,導致檢索效率較低。對於變化的問題(例如'Q3:印度支那半島的型別發生了怎樣的變化?'),YAGO的結果是型別的多個值。 GeoKG 和 GEKG 可以直接表示型別如何變化。對於原因的問題,只有GEKG具有明顯的優勢。它代表了地理事件的進化原因,其他兩個沒有結果。總的來說,YAGO更適合描述靜態事實。GeoKG儲存不同時期實體的不同狀態,更適合表示短時間內實體的頻繁變化。對於GEKG來說,它在表示進化過程和原因方面具有優勢。有時,屬性的檢索需要簡單的推理,這對效能的影響相對較小。

5 Conclusion

本研究提出了一個層次的知識表示模型來表示地理時空過程。主要創新點可歸納如下:首先,該模型基於時空特徵和演化關係,提出了地理實體的知識表示方法,建立了不同時空狀態的地理實體之間的關係,並能清晰地表示它們的演化。其次,該模型提供了地理事件和地理實體之間的關係表示機制,展示了它們之間複雜的關聯和相互作用。第三,建立了具有時間層次的立方模型結構,有助於表徵地理要素隨時間的演變。

地理KG擴充套件為描述地理進化知識,然後生成地理演化知識圖 (Geographic evolutionary knowledge graph,GEKG)。對於GIScience,GEKG提供了一個結構化的、可計算的知識表示模型,有助於發現隱藏的地理知識和時空格局,揭示地理要素的演化機制和地理現象的組成部分。

實驗結果表明,GEKG具有很強的表達能力,不僅可以描述關係和性質,還可以代表季風區域的形成、發展和變化。總體而言,GEKG的表示模型是一種基於地理時空過程的結構化知識組織方法。與地理KG相比,它為基於地理時空過程的進化知識表示、時空分析和推理提供了重要支援。

未來的工作仍應考慮以下問題:當前的知識提取方法不繫統和不成熟。 對於GEKG模型,需要對現有方法進行改進,形成較為完整的基於過程的知識自動抽取框架。

1 Introduction

在大資料時代,地理時空資料的快速增長以及缺乏高效的知識抽取技術使得時空知識和模式的發現變得困難(Lin et al. 2018)。如何利用智慧技術來表示和分析時空過程是一個緊迫的問題,也是時空資料處理及其智慧應用的關鍵(Luo et al. 2013, Deng et al. 2020)。

具有地理時空過程的傳統視覺化模型使用空間資料作為視覺整合的背景。這僅顯示單個地理元素的時空變化,缺乏描述元素之間的互動和語義關係的能力(Zheng et al. 2013, Shi et al. 2019)。地理知識圖(KG)為知識發現、推理和預測等過程建立語義知識網路(Gong et al. 2014, Jiang et al. 2018)。它提供了一個可計算的結構來分析地理實體(地理實體)之間的關聯,識別隱藏的地理關係,並發現地理模式。

地理知識庫主要關注地理實體,描述地理實體之間的屬性和關係。但是,對於地理時空過程的表示,忽略了進化知識,例如地理事件的發展以及地理實體的形成,演化和破壞。這些對於揭示地理要素的演化規律和機制具有重要價值。例如,颱風的時空模式可以從其時空變化中獲得。它可以為預測此類颱風的路徑和對天氣的影響提供參考,對臺風預測和預警具有重要價值(Liu et al.2020)。

這些地理KG的表示模型以 <geo-entity, relation, geo-entity> 的形式組織知識,難以表示變化。這些知識服務僅限於靜態事實,極大地限制了對地理時空過程的深入研究。為了提高對演化知識的表達能力,本文提出了地理演化知識圖 (GEKG)。通過表徵地球事件和地球實體的長期發展變化,可以為揭示地球的形成過程、演化規律以及基於過程的推理和預測提供支援。

以結構化的方式表示地理元素的發展和變化,為智慧計算,推理和預測奠定了基礎。目前表示時空過程的主要方法,可分為兩種:那些基於本體的和那些基於圖的。 此外,處理的過程也可以用公式來反映處理的效果。

2.1 Representation by formulae

使用公式來表示過程是非常普遍的。它通常會考慮許多因素,反映處理的效果。以大氣汙染物濃度分佈為例,建立了描述或預測大氣汙染物濃度變化的時空模型(Zou et al. 2016, Deng et al. 2018)。整合卡爾曼濾波器用於獲得土地利用變化的最佳估計(Li et al. 2012)。區域性迴歸模型用於根據時空資料估計空氣汙染物的濃度(Leung et al. 2019)。該方法將變化表示為數值模型進行預測和計算,更適用於單一地理要素的變化。

2.2 Representations based on ontology

地理本體作為一種概念和形式規範,準確地定義了知識的概念和實體之間的關係(Lopez Pellicer et al.2012)。基於本體的方法通過對相關元素本體之間的語義、因果關係和進化關係進行建模來表達該過程。例如,構建了序列本體、狀態本體和過程本體等本體,並建立了它們之間的互動,實現了對複雜動態地理現象的建模 (Xue et al. 2019)。地理本體和表徵用於表示地理場景,並建立不同場景中元素之間的連線以模擬演化(Huang et al. 2019)。通過構建以地理過程為中心的本體模型,利用地理場景、地理過程和地理要素之間的相互作用來表徵地理現象的動態變化(Cao et al. 2018)。基於本體的方法通常基於一系列子流程和子場景,強調它們之間的關係以及地理元素在流程中的作用。因此,這些方法缺乏過程與地理要素演化之間的相互作用

2.3 Representations based on graphs

目前,地理 KG 的表示模型以 <geo-entity,relation,geo-entity> 三元組的形式組織,描述了地理實體之間的屬性和關係(Chen et al. 2017, Li et al. 2017 , Zhu et al. 2017, Patel et al. 2018, Wang et al. 2018, Fan et al. 2019)。實體具有時空特徵,知識圖正逐漸被用來模擬變化。它們可以分為兩類:時態知識圖和事件圖。

(1)時間知識圖譜,在典型三元組的基礎上,加入時間、變化等元素,可以代表不同時期實體的差異。例如,使用全球事件、語言和語氣資料庫(GDELT)和綜合危機預警系統(ICEWS)資料集,知識圖譜以 <entity, (relation, time), entity> 的形式組織(Trivedi et al. 2017, Liu et al. 2019a, Jin et al. 2020)。基於DBpedia,構建不同版本的知識圖譜,每個版本都是特定時期的知識快照(Tasnim et al. 2019)。地理知識圖譜(Wang et al. 2019)定義了六個基本元素來描述地理實體,即位置、時間、屬性、狀態、變化和關係。它使用實體狀態來表示變化。時間知識圖以實體為研究物件,可以表示屬性的差異。

(2) 事件圖。這些圖關注事件並描述其發展過程。例如,事件邏輯圖 (ELGs) 描述事件之間的演化模式和邏輯關係 (Li et al. 2018, Ding et al. 2019) 。ELG將抽象事件作為節點,但與確切的參與者,位置和時間無關;它以順序和因果關係為邊來表示事件的邏輯發展。患者事件圖對醫療活動之間的時間關係進行建模,相關實體僅作為參與者存在(Liu et al. 2018)。根據文字中事件的順序,基於事件圖生成對話,並通過事件鏈進行多輪對話預測(Xu et al.2020)。實體一般充當事件的參與者,事件圖並不直接關注實體的變化以及實體與事件之間的互動。

地理時空過程是地理實體相關地理事件的長期演化。 地理事件的發生導致地理實體的變化,產生新事件。總而言之,地理KG的代表性仍存在幾個問題:(1) 缺乏事件和實體之間複雜關聯的表示(即它們共同進化並相互關聯),(2) 時間不只是一種屬性,因為它也傳達了進化的方向。

3 地理演化知識圖譜的表示模型

地理時空過程是地理元素的長期演變,例如,包含時間,地理事件及其組成元素,地理實體及其相關屬性。地理演化知識圖譜是一種全新的地理知識圖譜,代表了地理元素的演化過程。通過選用具有時間層次結構的立方結構,其表示模型建立了同一層和不同層中的地理元素之間的複雜關聯。

3.1 The knowledge representation approach

3.1.1 Main elements in the representation model

根據地理要素在時空過程中的特徵,該模型具有五個核心要素:時間、地理實體、屬性、地理事件和活動。 地理實體和地理事件構成了核心。

  • (1) 地理實體:存在並可與其他地理實體區分開來的單個實體,例如山、河或島嶼的特定例項。
  • (2) 時間:一段時間。
  • (3) 屬性:特定於每個地理實體的屬性,例如位置、面積和形狀。
  • (4) 地理事件:在一定時期內涉及一個或多個地理實體的活動(Xiang and Wang 2020)。
  • (5) 活動:地質事件中地質實體的運動或變化,如冰川運動、河流撕裂或大陸板塊的構造運動。

3.1.2 The representation approach of geographic elements and relations

3.2. The hierarchical cubical graph structure

在一個地理過程中,所有要素在同一時期相互關聯,在不同時期又存在差異。根據地理元素和關係的表示方法,我們建立了一個具有時間層次的立方圖結構來表示演化(圖1)。GEKG 可以分為不同的時間層。 每一層都反映了當前時間地理事件、地理實體和屬性的關聯; 在不同的層之間,所有元素都以不同的方式演變。

(2) 每個元素的表示

在 GEKG 的表示模型中,將每個地理事件作為一個整體,不同的地理事件之間存在邏輯關係(圖 2(a))。對於地理實體,屬性是區分它們的標誌。每個地理實體都有自己獨特的空間特徵和屬性,不同地理實體之間存在語義關係。因此,地理實體的組織如圖2(b) 所示。由於地理事件具有一定的結構,所有元素都通過建立它們的連線來相互關聯。地理事件的結構如圖 2(c) 所示。

(2) 同一層中的關聯。

根據圖2中的表示,同一時期的關聯可以表示為圖3所示的結構。也就是說,在同一層中,所有元素都屬於當前期間,並且屬性和關係沒有改變。

(3) 不同層次的關聯。

對於每個時間層,元素以相同的方式關聯。然而,隨著時間的推移,各種元素以不同的方式進化 (圖4)。不同時期地理事件之間的關聯如圖4(a)所示。在演化過程中,一個地緣事件的發生引發一系列相關的地緣事件,反映了地緣事件發展的邏輯。地理實體的屬性可能會隨著時間而改變。 根據不同時期的差異,可以建立演化關係(圖4(b))。從“中古新世”到“晚始新世”,“the same as”是一種演化關係,這表明“印度的南端1”沒有改變。“中古新世”和“晚始新世”分別代表實體狀態的開始時間和結束時間。 從“晚始新世”到“晚漸新世”,型別的價值發生了變化。

進化關係 “演變為” 更改前後的實體,表明 “印度的南端1” 已演變為 “印度的南端2”。因此,“晚漸新世”是實體新狀態的開始時間。 地球實體的變化表明地球事件的發生(圖4(c))。事件表明“東亞季風區1”的屬性發生了變化,活動代表了位置變化。“東亞季風區1”和“東亞季風區2”分別是變化前後的實體,它們具有“evolves into”的進化關係。該事件涉及兩個時期,但變化實際上發生在後一個時期。因此,它被放置在圖4(c)中的後一個時間層。另外,實體的產生和消亡也可以用圖4(c)來表示,只涉及一層。

4. Experiments

4.1 Dataset description

本研究的資料來自中文文字語料庫。我們從中文維基百科互動百科全書中國國家知識基礎設施(CNKI)等線上網站上爬取了56,897篇關於山脈、礦物、海洋和島嶼形成和演變的中文文字。中文文字由語言技術平臺 (LTP) (Che et al. 2010) 進行預處理,例如分詞、分詞、詞性標註和命名實體識別。在此基礎上,我們採用“關鍵字和上下文感知關係提取模型”和“基於圖卷積網路和注意力機制的事件提取模型”來提取關係和事件。最後,我們建立了一個包含60,000多個事件、140,000實體、160,000屬性和210,000關係的資料庫。根據GEKG的組織形式,本文使用Neo4j圖資料庫進行圖儲存和顯示。

4.2 The YAGO, GeoKG and GEKG

另一個巨大的本體 (YAGO) 和地理知識圖 (GeoKG) (Wang et al. 2019) 與我們的 GEKG 進行了比較。以“亞非澳季風區的演變”為例(Liu et al. 2019b),相關地理知識被提取並人工修正。構建了三個知識圖譜,對其結構和表達能力進行了分析。提出 GeoKG 來表示地理實體的變化。YAGO 是一個具有代表性的開源知識圖,其中許多專案包含時間和空間維度的描述。請注意,我們將我們的模型與最新版本的 YAGO4 進行了比較。

4.2.1. Structure comparison

4.2.2 Comparison of knowledge expression abilities

根據地理知識更注重發展變化的特點,本文設定了事實、變化和原因三類問題(表1)。第一類問題與檢測一般知識的表徵有關,第二類與進化有關,第三類與進化原因的表徵有關。

(1) 這些問題的比較。數字語言是用來進行基於Neo4j圖形檢索任務。問題是單獨查詢, 結果如表2 所示。

表3 給出了三個圖表的準確性、完整性和重複性。

GEKG的結果準確性優於其他兩種方法 (表3)。對於與事實有關的問題,三個圖的結果是完全準確的。Q3和Q4是關於地理實體的變化。YAGO只描述事實,不能代表變化。在Q3和Q4中,YAGO的結果是多個屬性值。不同時期的結果可以表明有變化,但與問題不符,不準確。由於缺乏事件的代表性,YAGO和GeoKG沒有給出Q5和q6的結果。

在完整性方面,GEKG的結果優於YAGO和GeoKG。對於與事實有關的問題,三個圖的結果令人滿意。對於與更改相關的問題,YAGO的結果與問題不匹配。儘管GeoKG可以給出部分結果,但它們並不完整。例如,在第四季度,印度大陸的變化不僅包括其位置和型別。GEKG的結果包括新的關係和相關事件,從而產生了更完整的表示。

重複通常是針對與事實相關的問題。 GeoKG 的結果比 YAGO 和 GEKG 的結果有更多的重複。 Q1南非季風區的位置沒有改變,所以YAGO和GEKG的重複率都是零。雖然 GeoKG 的結果是在五個不同的時期,但它們是相同的,並且重複性遠高於其他兩個。第二季度,印度大陸的位置由中古新世轉變為晚始新世。 YAGO的結果仍然不是多餘的。 GeoKG 儲存了四個相同的位置。 GEKG 有重複的原因是它將地理實體的所有屬性視為一個整體狀態。印度大陸在晚始新世和晚漸新世位置相同,但前者為非季風區,後者為季風區。兩個時期印度大陸的整體狀況是不同的。因此,當屬性發生變化時,當前實體與上一時期不同。

考慮到準確性,完整性和重複性 (表4) 的組合,YAGO只能準確回答事實問題,但重複性低。GeoKG具有較高的準確性,但也具有較高的可重複性。對於與變化相關的問題,GeoKG的成績並不完整,因此綜合能力適中。GEKG為所有問題提供了準確的答案,並且在表示過程方面具有特殊優勢。GEKG旨在表示進化資訊,因此具有低冗餘度。

總之,在結構方面,GEKG強調了地質實體和地質事件隨時間的演變,它們比GeoKG和YAGO包含更多的程式性知識。GEKG具有較好的表達能力。對於與事實相關的問題,三個圖表的結果是準確的,但GEKG的結果在與過程相關的問題上明顯優於GeoKG和YAGO的結果。GEKG在表示進化知識方面具有絕對優勢,並且比其他兩個圖更完整。