大規模資料匯入Neo4j

阿新 • • 發佈：2018-11-10

如何將大規模資料匯入Neo4j

專案需要基於Neo4j開發，由於資料量較大（數千萬節點），因此對當前資料插入的方法進行了分析和對比。

常見資料插入方式概覽

Neo4j Version	Language Driver
Community 3.0.2	Python neo4j-driver 1.0.0

目前主要有以下幾種資料插入方式：

Cypher CREATE 語句，為每一條資料寫一個CREATE
Cypher LOAD CSV 語句，將資料轉成CSV格式，通過LOAD CSV讀取資料。

官方提供的Java API —— Batch Inserter
大牛編寫的 Batch Import 工具
官方提供的 neo4j-import 工具

這些工具有什麼不同呢？速度如何？適用的場景分別是什麼？我這裡根據我個人理解，粗略地給出了一個結果：

	CREATE語句	LOAD CSV語句	Batch Inserter	Batch Import	Neo4j-import
適用場景	1 ~ 1w nodes	1w ~ 10 w nodes	千萬以上 nodes	千萬以上 nodes	千萬以上 nodes
速度	很慢 (1000 nodes/s)	一般 (5000 nodes/s)	非常快 (數萬 nodes/s)	非常快 (數萬 nodes/s)	非常快 (數萬 nodes/s)
優點	使用方便，可實時插入。	使用方便，可以載入本地/遠端CSV；可實時插入。	速度相比於前兩個，有數量級的提升	基於Batch Inserter，可以直接執行編譯好的jar包；可以在已存在的資料庫中匯入資料	官方出品，比Batch Import佔用更少的資源
缺點	速度慢	需要將資料轉換成CSV	需要轉成CSV；只能在JAVA中使用；且插入時必須停止neo4j	需要轉成CSV；必須停止neo4j	需要轉成CSV；必須停止neo4j；只能生成新的資料庫，而不能在已存在的資料庫中插入資料。

速度測試

下面是我自己做的一些效能測試：

1. CREATE 語句

這裡每1000條進行一次Transaction提交

CREATE (:label {property1:value, property2:value, property3:value} )

11.5w nodes	18.5w nodes
100 s	160 s

2. LOAD CSV 語句

using periodic commit 1000
load csv from "file:///fscapture_screencapture_syscall.csv" as line
create (:label {a:line[1], b:line[2], c:line[3], d:line[4], e:line[5], f:line[6], g:line[7], h:line[8], i:line[9], j:line[10]})

這裡使用了語句USING PERIODIC COMMIT 1000，使得每1000行作為一次Transaction提交。

11.5w nodes	18.5w nodes
21 s	39 s

3. Batch Inserter、Batch Import、Neo4j-import

我只測試了Neo4j-import，沒有測試Batch Inserter和Batch Import，但是我估計他們的內部實現差不多，速度也處於一個數量級別上，因此這裡就一概而論了。

neo4j-import需要在Neo4j所在伺服器執行，因此伺服器的資源影響資料匯入的效能，我這裡為JVM分配了16G的heap資源，確保效能達到最好。

sudo ./bin/neo4j-import --into graph.db --nodes:label path_to_csv.csv

11.5w nodes	18.5w nodes	150w nodes + 1431w edges	3113w nodes + 7793w edges
3.4 s	3.8 s	26.5 s	3 m 48 s

結論

如果專案剛開始，想要將大量資料匯入資料庫，Neo4j-import是最好的選擇。
如果資料庫已經投入使用，並且可以容忍Neo4j關閉一段時間，那麼Batch Import是最好的選擇，當然如果你想自己實現，那麼你應該選擇Batch Inserter
如果資料庫已經投入使用，且不能容忍Neo4j的臨時關閉，那麼LOAD CSV是最好的選擇。
最後，如果只是想插入少量的資料，且不怎麼在乎實時性，那麼請直接看Cypher語言。

其它的Tips

在LOAD CSV前面加上USING PERIODIC COMMIT 1000，1000表示每1000行的資料進行一次Transaction提交，提升效能。
建立index可以使得查詢效能得到巨大提升。如果不建立index，則需要對每個node的每一個屬性進行遍歷，所以比較慢。並且index建立之後，新加入的資料都會自動編入到index中。注意index是建立在label上的，不是在node上，所以一個node有多個label，需要對每一個label都建立index。

2016

大規模資料匯入Neo4j

如何將大規模資料匯入Neo4j 專案需要基於Neo4j開發，由於資料量較大（數千萬節點），因此對當前資料插入的方法進行了分析和對比。常見資料插入方式概覽 Neo4j Version Language Driver

如何批量、快速從MySQL將節點和關係資料匯入neo4j

0 Neo4j簡介安裝好neo4j後，啟動服務，可以訪問地址http://127.0.0.1:7474/browser/看到以下介面，點選*號，就可以看到至多50個節點了。這是neo4j的主介面，通過查詢資料節點的相關屬性、標籤和關係，即時的把節點間存在的關係展示出來。 neo4

neo4j 學習記錄（三）-資料匯入

neo4j-import 1.使用條件關閉neo4j 無法在原有資料庫新增，只能重新生成一個數據庫匯入檔案格式為csv 2.引數 --into：資料庫名稱 --bad-tolerance：能容忍的錯誤資料條數（即超過指定條數程式直接掛掉），預設1000 --mul

Neo4j 批量資料匯入原始碼使用

目前由於專案的需要，用到了Neo4j的批量匯入。經過檢視資料發現： 1、批量匯入時，如果發現必要屬性指定的節點存在時，就認為匯入的資料不應該為新建節點，而是更新節點，jexp封裝的rest包滿足不了條件 2、rest介面匯入為單執行緒匯入，不滿足使用hadoop m/r的

將excel資料匯入到mysql資料庫

框架用的是thinkphp3.2框架 //將Excel匯入到資料庫的思想是：先將Excel中的資料轉為php陣列，然後執行addAll操作 public function upload() { ini_set('memory_limit', '1024M'); if (!empty(

poiExcel表格所有操作以及資料匯入匯出

這個是本人在學習中記錄的筆記以供大家參考 Poi簡介： 1.1什麼是poi Apache POI [1] 是用Java編寫的免費開源的跨平臺的 Java API，Apache POI提供API給Java程式對Microsoft Offi

MySQL資料匯入sql檔案過程中出錯

錯誤型別： ERROR 1231 (42000): Variable 'time_zone' can't be set to the value of 'NULL' ERROR 1231 (42000): Variable 'sql_mode' can't be set to the value of '

IO流讀取資料檔案，將資料寫入資料庫，並記錄資料匯入日誌

流程分析：資料型別： ROUTE_ID,LXBM,ROAD_NAME,SRC_LON,SRC_LAT,DEST_LON,DEST_LAT 10000,G50,滬渝高速,115.8605349,30.08934467,115.5437817,30.08898601 10001,G

使用POI將資料匯入匯出資料庫。

POI將資料匯入匯出資料庫。（採用ssm框架） 1.前臺列表的展示 <script type="text/javascript"> //進行資料的全選 function selectAll(){ var ids=document.get

開發版速達擴充套件功能---業務單據明細表格資料匯入

原版速達軟體在單據明細匯入的時候，只能提供文字方式匯入，既不友好，也不方便，而且列頭只能固化，匯入的資料列也是很有限；而開發版速達則提供了當代流行的Excel匯入模式，匯入的列和列名都可以由使用者自己定製，下面聚為大家詳細講解下開發版業務單據明細匯入的方式，以下以銷售開單為講解，其他單據都是類似： 1.先開

MySQL-8.0.12資料庫的解除安裝，安裝和海量sql資料匯入

最近學習mySQL，作為一名新手，遇到了三個問題。第一：如何解除安裝乾淨原來的mySQL; 第二：如何下載並正確安裝mySQL; &nb

java後端伺服器讀取excel將資料匯入資料庫

使用的是easypoi，官網文件：http://easypoi.mydoc.io/ 1 /** 2 * 匯入Excel檔案 3 */ 4 @PostMapping("/importTeacher") 5 @ResponseBody 6 publi

一文詳解大規模資料計算處理原理及操作重點

摘要：大資料技術主要針對的是大規模資料的計算處理問題，那麼要想解決的這一問題，首先要解決的就是大規模資料的儲存問題。一、RAID技術大資料技術主要針對的是大規模資料的計算處理問題，那麼要想解決的這一問題，首先要解決的就是大規模資料的儲存問題。大規模資料儲存要解決的核心問題有三個方面：

資料匯入7.表空間的問題ORA-30036

問題解決ORA-30036：無法按8擴充套件段（在還原表空間‘XXXX’中）原文 http://blog.sina.com.cn/s/blog_676255e101018d5s.html 好文： https://www.cnblogs.com/kerrycode/p/5693629.

資料匯入6. shell程式設計

雙引號的優點：雙引號裡可以有變數雙引號裡可以出現轉義字元問題1：為什麼拼接變數字串時，變數二會把變數一的字串覆蓋啊？ http://bbs.chinaunix.net/thread-2328017-1-1.html 檔案格式問題：用dos2unix轉一下試試問題2：檢視linu

利用sqoop將hive資料匯入Oracle中（踩的坑）

教程很多，這裡只說踩過的坑 1.下載sqoop時，還得下一個bin的包，拿到sqoop-1.4.6.jar 的包，放到hadoop的lib目錄下 2.匯入oracle，執行程式碼時，使用者名稱和表名必須大寫！且資料庫建表時表名必須大寫！示例程式碼： sqoop expo

【轉載】oracle 資料匯入匯出

oracle 資料匯入匯出一、oracle中copy from的用法 1.語法及使用說明 1.1 語法下面我們來看一下SQL*Copy Command的語法及使用說明。在解釋SQ

使用spark將hive中的資料匯入到mongodb

import com.huinong.truffle.push.process.domain.common.constant.Constants; import com.mongodb.spark.MongoSpark; import com.mongodb.spark.config.WriteConf

Hive命令之三：hive的資料匯入匯出

Hive 資料的匯入匯出：一 Hive資料匯出 1、匯出資料到本地檔案系統： insert overwrite local directory '/software/data/data1' select * f

如何將R中的data frame物件的資料匯入到DB

在使用ARIMA模型來預測我們的銷量的時候，如果儲存預測版本進DB，以供後續分析呢 1. 在定義變數階段我們定義了dfResult <- data.frame() 　　這是一個data frame 2. 預測的結果通常是一個vector 　　例如我們預測9

大規模資料匯入Neo4j

如何將大規模資料匯入Neo4j

常見資料插入方式概覽

速度測試

1. CREATE 語句

2. LOAD CSV 語句

3. Batch Inserter、Batch Import、Neo4j-import

結論

其它的Tips

相關推薦