1. 程式人生 > >關於百科知識圖譜zhishime資料集的調研(解壓後5G,支援迴圈多跳)

關於百科知識圖譜zhishime資料集的調研(解壓後5G,支援迴圈多跳)

總結

發現zhishi.me資料集中的實體和實體間的關係如下所示:

1.  該資料集描述了不同百科網頁之間的等價關係,以及同一個百科網頁之間的重定向關係。

2.資料集存在多跳關係,根據嘗試推斷,資料集應該存在無限迴圈多跳關係。

3.資料解壓後總大小:5G。

調研過程

下載資料集並解壓後共3.3G:

進入資料夾:

先看sameAs資料夾:

6個檔案大小約:950M

發現這些描述了三個百科網頁之間的等價關係:

然後看其他三個資料夾:

如上圖,baidubaike、hudongbaike()、zhwiki(解壓後1.77G)三個資料夾內的結構相似,容易推斷 最後一個zip (zhwiki_instance_types_zh.zip)描述了isntance_types, 其餘的abstracts、aliases、....  等描述屬性或實體間關係。 之後嘗試找出其中有可能描述關係的壓縮包。

先開啟zhwiki_instance_types_zh.zip,發現其定義了實體的類別:

然後開啟其他壓縮包:

發現2.0_zhwiki_redirects_zh.ttl 描述的頁也是關係:

總結

發現zhishi.me資料集中的實體和實體間的關係如下所示:

1.  該資料集描述了不同百科網頁之間的等價關係,以及同一個百科網頁之間的重定向關係。

2.資料集存在多跳關係,根據常識推斷,資料集應該存在無限迴圈多跳關係。

3.資料解壓後總大小:5G。