MindSpore載入圖資料集

阿新 • • 發佈：2022-05-06

載入圖資料集

MindSpore提供的mindspore.dataset模組可以幫助使用者構建資料集物件，分批次地讀取文字資料。

圖的概念

通常一個圖（graph) G是由一系列的節點(vertices) V以及邊（eage）E組成的，每條邊都連線著圖中的兩個節點，用公式可表述為：G = F(V, E)，簡單的圖如下所示。
圖中包含節點V = {a, b, c, d}，和邊E = {(a, b), (b, c), (c, d), (d, b)}，針對圖中的連線關係通常需藉助數學的方式進行描述，如常用的基於鄰接矩陣的方式，用於描述上述圖連線關係的矩陣C如下，其中a、 b、c、d對應為第1、2、 3、4個節點。

資料集下載和轉換

(1) 資料集介紹

常用的圖資料集包含Cora、Citeseer、PubMed等
原始資料集可以從ucsc網站進行下載，
github提供的預處理後的資料集，GCN等公開使用
Cora資料集主體部分(cora.content)
- 2708條樣本（節點），每條樣本描述1篇科學論文的資訊，論文都屬於7個類別中的一個。每條樣本資料包含三部分，依次為論文編號、論文的詞向量（一個1433位的二進位制）、論文的類別；
- 引用資料集部分(cora.cites)包含5429行（邊），每行包含兩個論文編號，表示第二篇論文對第一篇論文進行了引用。

資料集下載：下載預處理後的cora資料集目錄如下：

.
└── cora
    ├── ind.cora.allx
    ├── ind.cora.ally
    ├── ind.cora.graph
    ├── ind.cora.test.index
    ├── ind.cora.tx
    ├── ind.cora.ty
    ├── ind.cora.x
    ├── ind.cora.y
    ├── trans.cora.graph
    ├── trans.cora.tx
    ├── trans.cora.ty
    ├── trans.cora.x
    └── trans.cora.y

（2）資料集下載

以下示例程式碼將cora資料集下載並解壓到指定位置。

!mkdir -p ./cora
!git clone https://github.com/kimiyoung/planetoid
!cp planetoid/data/*.cora.* ./cora
!rm -rf planetoid

（3）資料集格式轉換

資料集格式轉換：將資料集轉換為MindRecord格式，可藉助models倉庫提供的轉換指令碼進行轉換，生成的MindRecord檔案在./cora_mindrecord路徑下。

!git clone https://gitee.com/mindspore/models.git
SRC_PATH = "./cora"
MINDRECORD_PATH = "./cora_mindrecord"

!rm -rf $MINDRECORD_PATH
!mkdir $MINDRECORD_PATH

!python models/utils/graph_to_mindrecord/writer.py --mindrecord_script cora --mindrecord_file "$MINDRECORD_PATH/cora_mr" --mindrecord_partitions 1 --mindrecord_header_size_by_bit 18 --mindrecord_page_size_by_bit 20 --graph_api_args "$SRC_PATH"

報錯，但命令列可以

改：環境切換沒得搞定啊

!source activate py37_ms16

!python models/utils/graph_to_mindrecord/writer.py --mindrecord_script cora --mindrecord_file "$MINDRECORD_PATH/cora_mr" --mindrecord_partitions 1 --mindrecord_header_size_by_bit 18 --mindrecord_page_size_by_bit 20 --graph_api_args "$SRC_PATH"

乖乖命令列試試。看來預設環境沒有ms不行？

source activate py37_ms16

python models/utils/graph_to_mindrecord/writer.py --mindrecord_script cora --mindrecord_file "./cora_mindrecord/cora_mr" --mindrecord_partitions 1 --mindrecord_header_size_by_bit 18 --mindrecord_page_size_by_bit 20 --graph_api_args "./cora"

載入資料集

MindSpore目前支援載入文字領域常用的經典資料集和多種資料儲存格式下的資料集，使用者也可以通過構建自定義資料集類實現自定義方式的資料載入。
下面演示使用MindSpore.dataset模組中的MindDataset類載入上述已轉換成mindrecord格式的cora資料集。

（1）配置資料集目錄，建立資料集物件。

import mindspore.dataset as ds
import numpy as np

data_file = "./cora_mindrecord/cora_mr"
dataset = ds.GraphData(data_file)

（2）訪問對應的介面，獲取圖資訊及特性、標籤內容。

# 檢視圖中結構資訊
graph = dataset.graph_info()
print("graph info:", graph)

# 獲取所有的節點資訊
nodes = dataset.get_all_nodes(0)
nodes_list = nodes.tolist()
print("node shape:", len(nodes_list))

# 獲取特徵和標籤資訊，總共2708條資料
# 每條資料中特徵資訊是用於描述論文i，長度為1433的二進位制表示，標籤資訊指的是論文所屬的種類
raw_tensor = dataset.get_node_feature(nodes_list, [1, 2])
features, labels = raw_tensor[0], raw_tensor[1]

print("features shape:", features.shape)
print("labels shape:", labels.shape)
print("labels:", labels)

資料處理

MindSpore目前支援的資料處理運算元及其詳細使用方法。下面構建pipeline，對節點進行取樣等操作。

（1）獲取節點的鄰居節點，構造鄰接矩陣。

neighbor = dataset.get_all_neighbors(nodes_list, 0)
# neighbor的第一列是node_id，第二列到最後一列儲存的是第一列的鄰居節點，如果不存在這麼多，則用-1補齊。
print("neighbor:\n", neighbor)

（2）依據節點的鄰居節點資訊，構造鄰接矩陣。

nodes_num = labels.shape[0]
node_map = {node_id: index for index, node_id in enumerate(nodes_list)}
adj = np.zeros([nodes_num, nodes_num], dtype=np.float32)

for index, value in np.ndenumerate(neighbor):
    # neighbor的第一列是node_id，第二列到最後一列儲存的是第一列的鄰居節點，如果不存在這麼多，則用-1補齊。
    if value >= 0 and index[1] > 0:
        adj[node_map[neighbor[index[0], 0]], node_map[value]] = 1

print("adj:\n", adj)

（3）節點取樣，支援常見的多次跳躍取樣與隨機遊走取樣方法等。

多跳鄰接點取樣如（a）圖所示，當次取樣的節點將作為下次取樣的起始點；隨機遊走方式如（b）圖所示，隨機選擇一條路徑依次遍歷相鄰的節點，對應圖中則選擇了從Vi到Vj的遊走路徑。

# 基於多次跳躍進行節點取樣
neighbor = dataset.get_sampled_neighbors(nodes_list[0:21], [2], [0])
print("neighbor:\n", neighbor)

# 基於隨機遊走進行節點取樣
meta_path = [0]
walks = dataset.random_walk(nodes_list[0:21], meta_path)
print("walks:\n", walks)

（4）通過節點獲取邊/通過邊獲取節點。

# 通過邊獲取節點
part_edges = dataset.get_all_edges(0)[:10]
nodes = dataset.get_nodes_from_edges(part_edges)
print("part edges:", part_edges)
print("nodes:", nodes)

# 通過節點獲取邊
# nodes_pair_list = [(0, 1), (1, 2), (1, 3), (1, 4)]
# edges = dataset.get_edges_from_nodes(nodes_pair_list)
# print("edges:", edges)

MindSpore載入圖資料集

載入圖資料集 MindSpore提供的mindspore.dataset模組可以幫助使用者構建資料集物件，分批次地讀取文字資料。

用torchvision.datasets.ImageFolder載入圖片資料集

一、專案結構二、程式碼 1 data_loader = torch.utils.data.DataLoader( 2torchvision.datasets.ImageFolder(\'traing_dataset\',

R Studio載入內部資料集iris,mtcars

library(datasets) summary(iris) ##Sepal.LengthSepal.WidthPetal.LengthPetal.Width ##Min.:4.300Min.:2.000Min.:1.000Min.:0.100

學習筆記——6-5載入cifar10資料集

#自定義載入cifar10資料集from torchvision import transformsfrom torch.utils.data import DataLoader, Datasetimport osfrom PIL import Imageimport numpy as npimport globlabel_name = [\"airplane\", \"auto

圖資料集cora詳解

cora資料集- 下載地址https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz 內容介紹：樣本特徵，標籤，鄰接矩陣該資料集共2708個樣本點，每個樣本點都是一篇科學論文，所有樣本點被分為8個類別

Pytorch自己載入單通道圖片用作資料集訓練的例項

pytorch 在torchvision包裡面有很多的的打包好的資料集，例如minist,Imagenet-12,CIFAR10 和CIFAR100。在torchvision的dataset包裡面，用的時候直接呼叫就行了。具體的呼叫格式可以去看文件（目前好像只有英文的）。

PyTorch載入自己的資料集例項詳解

資料預處理在解決深度學習問題的過程中，往往需要花費大量的時間和精力。資料處理的質量對訓練神經網路來說十分重要，良好的資料處理不僅會加速模型訓練，更會提高模型效能。為解決這一問題，PyTorch提供了幾個高效

pytorch載入自己的影象資料集例項

之前學習深度學習演算法，都是使用網上現成的資料集，而且都有相應的程式碼。到了自己開始寫論文做實驗，用到自己的影象資料集的時候，才發現無從下手，相信很多新手都會遇到這樣的問題。

Flink(三) Flink 程式設計模型之建立和載入資料集

Flink(三) Flink 程式設計模型之建立和載入資料集所有的 Flink 程式都是由三部分組成的： Source 、Transformation 和 Sink。

為深度學習模型載入自定義影象資料集：第1部分

作者|Renu Khandelwal 編譯|VK 來源|Towards Data Science 在本文中，你將學習如何載入自定義資料和建立影象序列和測試資料集，作為深度學習模型的輸入。

pytorch載入語音類自定義資料集的方法教程

前言　　pytorch對一下常用的公開資料集有很方便的API介面，但是當我們需要使用自己的資料集訓練神經網路時，就需要自定義資料集，在pytorch中，提供了一些類，方便我們定義自己的資料集合

dgl資料集的儲存和載入使用

技術標籤：dgl DGL建議使用者實現儲存和載入資料的函式，將處理後的資料快取在本地磁碟中。這樣在多數情況下可以幫使用者節省大量的資料處理時間。DGL提供了4個函式讓任務變得簡單。

TensorFlow 2.0 - TFRecord儲存資料集、@tf.function圖執行模式、tf.TensorArray、tf.config分配GPU

技術標籤：TensorFlow 文章目錄 1. TFRecord 格式儲存2. tf.function 高效能3. tf.TensorArray 支援計算圖特性4. tf.config 分配GPU

pytorch，tensorflow載入本地mnist資料集

技術標籤：tensorflowpytorchtensorflowpytorch 1. pytorch import torch import torch.nn as nn from torchvision import datasets, transforms

ALINK(八)：載入資料集 (一)CSV檔案讀入 (CsvSourceBatchOp)

Java 類名：com.alibaba.alink.operator.batch.source.CsvSourceBatchOp Python 類名：CsvSourceBatchOp

ALINK(九)：載入資料集 (二)Text檔案讀入 (TextSourceBatchOp)

Java 類名：com.alibaba.alink.operator.batch.source.TextSourceBatchOp Python 類名：TextSourceBatchOp

ALINK(十一)：載入資料集 (四)Table資料讀入 (TableSourceBatchOp)

Java 類名：com.alibaba.alink.operator.batch.source.TableSourceBatchOp Python 類名：TableSourceBatchOp

ALINK(十)：載入資料集 (三)Catalog讀入 (CatalogSourceBatchOp)

Java 類名：com.alibaba.alink.operator.batch.source.CatalogSourceBatchOp Python 類名：CatalogSourceBatchOp

ALINK(十二)：載入資料集 (五)記憶體資料讀入 (MemSourceBatchOp)

Java 類名：com.alibaba.alink.operator.batch.source.MemSourceBatchOp Python 類名：MemSourceBatchOp

MindSpore 初探，使用LeNet訓練minist資料集

如題所述，官網地址： https://www.mindspore.cn/tutorial/zh-CN/r1.2/quick_start.html 資料集下載：

MindSpore載入圖資料集

載入圖資料集

圖的概念

資料集下載和轉換

載入資料集

資料處理

相關推薦