知識本體與大資料處理續
作者:趙丹
連結:https://zhuanlan.zhihu.com/p/21496568
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。
前一篇談到了知識本體的哲學起源,以及 Palantir 使用知識本體解決資料整合問題。由於篇幅所限,很多問題沒有談透,還想再多說幾句。
現代的知識本體和古典哲學的形而上學已經沒有多少關係了。外化於人類知識體系之外的永恆理性世界並不存在,存在的只是人類在認知和探索世界過程中不斷累積,不斷融合,不斷外化成文字、圖形、過程方法的知識。
知識本體、框架表示法、面向物件程式設計,都是源於人類思維中的概念系統。我們今天使用的計算機是一個純邏輯系統,基本原件的功能是做布林代數,各種運算最終都會分解為布林代數運算。這種架構決定了兩件事:首先,計算機做邏輯運算是直接硬體處理,速度飛快,效率極高;其次,學過計算機原理的人,都會受到這種架構的影響,所謂手裡拿著錘子,滿眼都是釘子,遇到任何問題都要首先考慮通過邏輯的方法來處理。然而,可以純粹用邏輯解決的問題其實很有限,並且往往都遠離日常經驗,這也體現在了軟體開發的困難程度上,軟體開發本質上就是要把一個實際的問題分解成可以形式化和不能形式化的部分,並把可以形式化的部分用程式實現出來。
資料處理是一類特殊的軟體,因此顯然也是形式化的。上一篇說到P家在大資料處理中引入了知識本體(一種形式化的表達概念結構的方法),但是隻講了作為標籤體系,幫助使用者達成對資料含義的共識這一種作用,其實知識本體還有另外一重作用,就是輔助使用者進行可視分析。P家的可視分析比較簡單,主要是做結合地理資訊的時空資料展示,線索是人物和事件。這個思路體現在平臺的整體設計上,在Dynamic Ontology 和 RevisioningDB 中集中體現出來。下圖出自電影 Zero Dark Thirty:
Dynamic Ontology 有著固定的頂層本體,結構大致如下:
這個動態本體的基本型別為物件、屬性、關係。搞過本體的都可以看出來,這是個比較輕量級的知識表示框架,也算中規中矩。再往下看一層,就是P家特色了。物件分為實體、文件、事件三大類。其中文件是作為資料來源和參考資料存在的,一方面用於從中抽取實體和事件,另一方面提供給分析師做背景閱讀。文件由分析師匯入到系統中,系統隨即會提取文件內容,自動建立索引,這樣一來匯入後的文件都可以通過關鍵詞進行搜尋。抽取操作由分析師使用系統提供的工具來完成,需要指定抽取出的目標資料所對應的類,當然這個類一定是實體或者事件的子類。
實體和事件可以從文件中抽取出來,也可以來自匯入的結構化資料。不論是匯入的、還是抽取出來的結構化資料,都一定會屬於某個實體或者事件的子類。實體的一級子類主要是人和組織機構,廣義上講都是“人”(自然人和法人)。事件表示實體之間相互影響的關係,這種影響通過P家特有的RevisioningDB結構表達出來。RevisioningDB 記錄了實體屬性的每一次變化,除了變化後的屬性值,還同時記錄變化的時間戳,以及引發變化的事件ID。這樣一來,這些資料就表達了實體在時空上不斷運動變化,互相影響的一幅圖景,借用狹義相對論中的詞彙,就是給出了物件的世界線。分析師匯入或者抽取資料的過程,就是建立這個時空模型的過程。
當然了,機器並不理解時空圖景,機器只能做形式化運算,對於機器來說這些只是資料、指標、標籤,但是藉助外設顯示出來,在人眼中就形成了圖景。這個時空圖景是給分析師看的。分析師通過觀察,賦予圖景中的物件以意義,在腦中形成意象,得到結論。
這樣一來,我們可以把P家的路數歸納為:通過將資料結合到時空模型,在天(時)、地(理資訊)、人的框架中形成洞察和預測。由此可知,此係統暗合三才,幾近於道,顯然是用來算命的啊。
轉載於:https://my.oschina.net/airship/blog/799935