使用圖資料庫 Nebula Graph 資料匯入快速體驗知識圖譜 OwnThink

阿新 • • 發佈：2019-11-26

前言

本文由 Nebula Graph 實習生@王傑貢獻。

最近 @Yener 開源了史上最大規模的中文知識圖譜——OwnThink（連結：https://github.com/ownthink/KnowledgeGraphData ），資料量為 1.4 億條。

本文介紹如何將這份資料快速匯入圖資料庫 Nebula Graph，全過程大約需要 30 分鐘。

中文知識圖譜 OwnThink 簡介

思知（OwnThink）

知識圖譜是由 Google 在 2012 年提出來的一個概念。主要是用來描述真實世界中存在的各種實體和概念，以及他們之間的關係。在搜尋引擎、問答機器人、知識抽取等多個領域有著諸多應用。

最近 Yener 開源了史上最大規模的中文知識圖譜—— OwnThink（連結：https://github.com/ownthink/KnowledgeGraphData），資料量為 1.4 億條。資料以 (實體, 屬性, 值)

和 (實體, 關係, 實體) 混合的三元組形式儲存，資料格式為 csv。

可以點選這裡下載：https://nebula-graph.oss-accelerate.aliyuncs.com/ownthink/kg_v2.tar.gz

檢視原始檔案

由於 ownthink_v2.csv 資料過多，摘錄部分資料為例：

紅色食品,描述,紅色食品是指食品為紅色、橙紅色或棕紅色的食品。
紅色食品,是否含防腐劑,否
紅色食品,主要食用功效,預防感冒，緩解疲勞
紅色食品,用途,增強表皮細胞再生和防止面板衰老
大龍湫,描述,雁蕩山景區分散，東起羊角洞，西至鋸板嶺；南起筋竹溪，北至六坪山。
大龍湫,中文名稱,大龍湫
大龍湫,外文名稱,big dragon autrum
大龍湫,門票價格,50元
大龍湫,著名景點,芙蓉峰
姚明[中國籃球協會主席、中職聯公司董事長],妻子,葉莉

這裡的 (紅色食品,是否含防腐劑,否) 就是典型的 (實體, 屬性, 值) 形式的三元組資料; 而 (姚明[中國籃球協會主席、中職聯公司董事長],妻子,葉莉) 是典型的 (實體, 關係, 實體) 形式的三元組資料。

Step 1. 資料建模與清洗準備

建模

Nebula Graph 是一個開源的分散式圖資料庫（連結：https://github.com/vesoft-inc/nebula），相比 Neo4j 來說，它的主要特點是完全的分散式，因此圖資料庫 Nebula Graph 適合處理資料量超過單機的場景。

圖資料庫通常支援的資料模型為有向屬性圖（directed property graph）。圖中的每個頂點（vertex）可以用標籤（tag）來表示型別（Neo4j 叫做 Label），頂點和頂點之間的關係用邊（edge）連線起來。每種 tag 和 edge 還可以帶有屬性。——然而，這些功能對於知識圖譜的三元組資料沒什麼意義:

分析上圖的三元組資料，發現無論是 (實體, 屬性, 值) 形式的三元組資料，還是 (實體, 關係, 實體) 形式的三元組資料，每條三元組資料均可以建模成兩個點和一條邊的形式。前者三元組中的“實體”和“值”建模為兩個點（起點、終點），“屬性”建模為一條邊，後者三元組中的兩個“實體”也建模為兩個點（起點、終點），“關係”建模為一條邊.

而且，所有的點都是相同型別（取名叫entity ），只需要一個屬性（叫 name )，所有的邊也都是同一型別(取名叫 relation ），邊上也只有一個屬性（叫 name ）。

比如 (大龍湫,著名景點,芙蓉峰) 可以表示成下圖這個樣子：

資料清洗和預處理

按照前一節的分析，原始的每條三元組資料，還需要清洗轉換為兩個點和一條邊才能變成屬性圖的模型。

下載清洗工具

本文測試的時候，使用的作業系統是 CentOS 7.5，工具由 Golang 語言編寫而成。

你可以在這裡 (連結：https://github.com/jievince/rdf-converter) 下載這個簡單的清洗工具原始碼並編譯使用。

該工具會把轉換後的頂點的資料寫入到 vertex.csv 檔案、邊資料寫入到 edge.csv 檔案。

說明：在測試過程中，發現有大量的重複點資料，所以工具裡面也做了去重。完全去重後的點的資料大概是 4600 萬條，完全去重後的邊的資料大概是 1 億 4000 萬條。

清洗完的 vertex.csv 檔案長這樣：

-2469395383949115281,過度包裝
-5567206714840433083,Over  Package
3836323934884101628,有的商品故意增加包裝層數
1185893106173039861,很多采用實木、金屬製品
3455734391170888430,非科學
9183164258636124946,教育
5258679239570815125,成熟市場
-8062106589304861485,"成熟市場是指低增長率,高佔有率的市場。"

說明：每一行是一個頂點，第一列整型 -2469395383949115281 是頂點的 ID（叫做 VID），它是由第二列文字通過 hash 計算出來的，例如 -2469395383949115281 就是由 std::hash("過度包裝") 計算出來的值。

清洗完的 edge.csv 檔案:

3413383836870836248,-948987595135324087,含義
3413383836870836248,8037179844375033188,定義
3413383836870836248,-2559124418148243756,標籤
3413383836870836248,8108596883039039864,標籤
2587975790775251569,-4666568475926279810,描述
2587975790775251569,2587975790775251569,中文名稱
2587975790775251569,3771551033890875715,外文名稱
2587975790775251569,2900555761857775043,地理位置
2587975790775251569,-1913521037799946160,佔地面積
2587975790775251569,-1374607753051283066,開放時間

說明：第一列是起點的 VID，第二列是終點的 VID，第三列是這條邊的"屬性"或者"描述"。

在本機完全去重的清洗程式執行時間大約是 6 分鐘。

Step 2. Nebula Graph 啟動準備

下載和安裝

登陸 GitHub 後，在這裡 (連結：https://github.com/vesoft-inc/nebula/actions) 找到 Nebula 的安裝包。

找到你所用系統對應的下載連結：

筆者系統是 CentOS 7.5，下載 CentOS 7.5 最新的壓縮包，解壓後能找到 rpm 安裝包 nebula-5ace754.el7-5.x86_64.rpm，注意 5ace754 是 git commit 號，使用時可能會有所不同。下載好後解壓，輸入下面命令進行安裝，記得替換成新的 git commit：

$ rpm -ivh nebula-5ace754.el7-5.x86_64.rpm

啟動 Nebula Graph 服務

在 命令列 CLI 輸入下面命令啟動服務

$ /usr/local/nebula/scripts/nebula.service start all

命令執行結果如下：

可以執行以下命令檢查服務是否成功啟動

$ /usr/local/nebula/scripts/nebula.service status all

命令執行結果如下：

連線 Nebula Graph 服務

輸入下面命令連線 Nebula Graph：

$ /usr/local/nebula/bin/nebula -u user -p password

命令執行結果如下：

準備 schema 等元資料

Nebula Graph 的使用風格有點接近 MySQL，需要先準備各種元資訊。

新建圖空間 space

create space 的概念接近 MySQL 裡面 create database。在 nebula console 裡面輸入下面這個命令。

nebula> CREATE SPACE test;

進入 test space

nebula> USE test;

建立點型別（entity）

nebula> CREATE TAG entity(name string);

建立邊型別 (relation)

nebula> CREATE EDGE relation(name string);

最後簡單確認下元資料是不是正確。

檢視 entity 標籤的屬性：

nebula> DESCRIBE TAG entity;

結果如下：

檢視 relation 邊型別的屬性：

nebula> DESCRIBE EDGE relation;

結果如下：

Step 3. 使用 nebula-importer 匯入資料

登陸 GitHub 進入 https://github.com/vesoft-inc/nebula-importer ，nebula-importer 這個工具也是 Golang 語言寫的，在這裡下載並編譯原始碼。

另外，準備一個 YAML 配置檔案，告訴這個 importer 工具去哪裡找 csv 檔案。（可直接複製下面這段）

version: v1rc1
description: example
clientSettings:
  concurrency: 10 # number of graph clients
  channelBufferSize: 128
  space: test
  connection:
    user: user
    password: password
    address: 127.0.0.1:3699
logPath: ./err/test.log
files:
- path: ./vertex.csv
    failDataPath: ./err/vertex.csv
    batchSize: 100
    type: csv
    csv:
      withHeader: false
      withLabel: false
    schema:
      type: vertex
      vertex:
        tags:
          - name: entity
            props:
              - name: name
                type: string
  - path: ./edge.csv
    failDataPath: ./err/edge.csv
    batchSize: 100
    type: csv
    csv:
      withHeader: false
      withLabel: false
    schema:
      type: edge
      edge:
        name: relation
        withRanking: false
        props:
          - name: name
            type: string

說明：測試時候發現 csv 資料檔案中有大量轉義字元 (\) 和換行字元 (\r)，nebula-importer 也做了處理。

最後：開始匯入資料

使用圖資料庫 Nebula Graph 資料匯入快速體驗知識圖譜 OwnThink

前言

中文知識圖譜 OwnThink 簡介

思知（OwnThink）

檢視原始檔案

Step 1. 資料建模與清洗準備

建模

資料清洗和預處理

下載清洗工具

Step 2. Nebula Graph 啟動準備

下載和安裝

啟動 Nebula Graph 服務

連線 Nebula Graph 服務

準備 schema 等元資料

新建圖空間 space

進入 test space

建立點型別（entity）

建立邊型別 (relation)

Step 3. 使用 nebula-importer 匯入資料

使用圖資料庫 Nebula Graph 資料匯入快速體驗知識圖譜 OwnThink

分散式圖資料庫 Nebula Graph 的 Index 實踐

圖資料庫 Nebula Graph TTL 特性

GraphX 在圖資料庫 Nebula Graph 的圖計算實踐

圖資料庫 Nebula Graph 在 Boss 直聘的應用

初識分散式圖資料庫 Nebula Graph 2.0 Query Engine

使用neo4j圖資料庫的import工具匯入資料 -方法和注意事項

java實現將資料庫中的資料匯入到

資料庫-使用navcat 將SqlServer資料庫結構及資料匯入到MySQL資料庫中

通過sqoop將MySQL資料庫中的資料匯入Hbase

PowerDesigner連線oracle資料庫，oracle資料匯入PowerDesigner

使用Apache POI技術把資料庫中的資料匯入Excel表

Oracle資料庫的備份資料匯入與匯出 Oracle

達觀資料技術實踐：知識圖譜和Neo4j淺析

劍譜總綱 | 大資料方向學習面試知識圖譜

Nebula Graph 技術總監陳恆：圖資料庫怎麼和深度學習框架進行結合？

圖資料庫對比：Neo4j vs Nebula Graph vs HugeGraph

圖解JanusGraph系列 - 關於JanusGraph圖資料批量快速匯入的方案和想法（bulk load data）

將excel資料匯入到mysql資料庫

IO流讀取資料檔案，將資料寫入資料庫，並記錄資料匯入日誌

使用圖資料庫 Nebula Graph 資料匯入快速體驗知識圖譜 OwnThink

前言

中文知識圖譜 OwnThink 簡介

思知（OwnThink）

檢視原始檔案

Step 1. 資料建模與清洗準備

建模

資料清洗和預處理

下載清洗工具

Step 2. Nebula Graph 啟動準備

下載和安裝

啟動 Nebula Graph 服務

連線 Nebula Graph 服務

準備 schema 等元資料

新建圖空間 space

進入 test space

建立點型別（entity）

建立邊型別 (relation)

Step 3. 使用 nebula-importer 匯入資料

相關推薦