關於百科知識圖譜zhishime資料集的調研(解壓後5G,支援迴圈多跳)
阿新 • • 發佈:2019-02-02
總結
發現zhishi.me資料集中的實體和實體間的關係如下所示:
1. 該資料集描述了不同百科網頁之間的等價關係,以及同一個百科網頁之間的重定向關係。
2.資料集存在多跳關係,根據嘗試推斷,資料集應該存在無限迴圈多跳關係。
3.資料解壓後總大小:5G。
調研過程
下載資料集並解壓後共3.3G:
進入資料夾:
先看sameAs資料夾:
6個檔案大小約:950M
發現這些描述了三個百科網頁之間的等價關係:
然後看其他三個資料夾:
如上圖,baidubaike、hudongbaike()、zhwiki(解壓後1.77G)三個資料夾內的結構相似,容易推斷 最後一個zip (zhwiki_instance_types_zh.zip)描述了isntance_types, 其餘的abstracts、aliases、.... 等描述屬性或實體間關係。 之後嘗試找出其中有可能描述關係的壓縮包。
先開啟zhwiki_instance_types_zh.zip,發現其定義了實體的類別:
然後開啟其他壓縮包:
發現2.0_zhwiki_redirects_zh.ttl 描述的頁也是關係:
總結
發現zhishi.me資料集中的實體和實體間的關係如下所示:
1. 該資料集描述了不同百科網頁之間的等價關係,以及同一個百科網頁之間的重定向關係。
2.資料集存在多跳關係,根據常識推斷,資料集應該存在無限迴圈多跳關係。
3.資料解壓後總大小:5G。