1. 程式人生 > >知識圖譜—知識儲存—僅用neo4j搭建簡單的金融知識圖譜

知識圖譜—知識儲存—僅用neo4j搭建簡單的金融知識圖譜

一、任務描述

       本文章旨在用neo4j構建一個簡單的金融領域的知識圖譜,挖掘“高管—上市企業—行業/概念”之間的關係。關於具體的任務描述可下載我百度網盤的連結。連結:https://pan.baidu.com/s/1jLl9LnnHL4gaboUYXrYEDg 密碼:2ge3

二、資料清洗,生成csv檔案

        專案介紹,通過百度網盤下載下來的資料夾—tanXinKg,裡面包含target,這一部分資料是爬取同花順官網得到的html檔案,企業資訊就儲存在這寫檔案中,需要用BeautifulSoup去解析其內容,挖掘出相關的資料。

        myJob1資料夾包含兩部分,一部分是csv檔案,一部分是kg資料夾,其中csv檔案儲存的是企業和高管,企業和行業,企業和概念的關係,kg資料夾是將外圍的csv檔案提取成能夠匯入到neo4j的csv檔案。

       匯入到neo4j的csv檔案主要有nodes.csv檔案(這部分檔案在neo4j中是databases的作用)和relationship.csv檔案(這部分檔案在neo4j中是relation的作用)。

      nodes檔案,head欄位如下所示

需要注意以下幾點:

   (1)csv檔案都必須有唯一的id欄位,而且檔案間的id欄位不能相同,常見的做法是用100000等較大的數加上其真實的id值。由於neo4j對大小比較敏感,所以head必須是index:ID。

    (2)head的LABEL節點必須書寫成:LABEL,注意新增冒號,而且不能小寫。LABEL的內容不能多一個或少一個空格,這對neo4j的顯示會有影響的。

    (3)head的name節點,是可以定義的,可以稱之為name,也可以稱之為aaa,或bbb,但為了命名規範,建議寫成name。

          relationship.csv檔案中,head欄位如下:

需要注意以下幾點:

   (1)csv必須有:START_ID和:END_ID,而且這兩個的id都要是nodes.csv檔案中的ID。

    (2)csv檔案必須有relation欄位。

    (3)csv檔案必須有:TYPE欄位,不能省略冒號,不能小寫。

三、neo4j-import 匯入csv檔案

這一部分可以參考他人部落格,注意import 一定要有into檔案路徑,具體內容還需要根據自己的路徑編寫。

四、cypher的語句編寫

這一部分可以參考幾個大牛的部落格

部落格1

部落格2

部落格3

五、結果展示