1. 程式人生 > 其它 >GCN資料集Cora、Citeseer、Pubmed檔案分析

GCN資料集Cora、Citeseer、Pubmed檔案分析

1 簡介

  本文將對Cora、Citeseer、Pubmed 資料集進行詳細介紹

資料集 節點 特徵 標籤(y)
Cora 1 2708 5429 1433 7
Citeseer 1 3327 4732 3703 6
Pubmed 1 19717 44338 500 3

  GCN 檔案內容:

  ├── gcn

  │ ├── data //圖資料
  │ │ ├── ind.citeseer.allx
  │ │ ├── ind.citeseer.ally
  │ │ ├── ind.citeseer.graph
  │ │ ├── ind.citeseer.test.index
  │ │ ├── ind.citeseer.tx
  │ │ ├── ind.citeseer.ty
  │ │ ├── ind.citeseer.x
  │ │ ├── ind.citeseer.y
  │ │ ├── ind.cora.allx
  │ │ ├── ind.cora.ally
  │ │ ├── ind.cora.graph
  │ │ ├── ind.cora.test.index
  │ │ ├── ind.cora.tx
  │ │ ├── ind.cora.ty
  │ │ ├── ind.cora.x
  │ │ ├── ind.cora.y
  │ │ ├── ind.pubmed.allx
  │ │ ├── ind.pubmed.ally
  │ │ ├── ind.pubmed.graph
  │ │ ├── ind.pubmed.test.index
  │ │ ├── ind.pubmed.tx
  │ │ ├── ind.pubmed.ty
  │ │ ├── ind.pubmed.x
  │ │ └── ind.pubmed.y
  │ ├── __init__.py
  │ ├── inits.py //初始化的公用函式
  │ ├── layers.py //GCN層定義
  │ ├── metrics.py //評測指標的計算
  │ ├── models.py //模型結構定義
  │ ├── train.py //訓練
  │ └── utils.py //工具函式的定義
  ├── LICENCE
  ├── README.md
  ├── requirements.txt
  └── setup.py

  三種資料都由以下八個檔案組成,儲存格式類似,以cora為例:

  ind.dataset_str.x => 訓練例項的特徵向量,是scipy.sparse.csr.csr_matrix類物件,shape:(140, 1433)
  ind.dataset_str.tx => 測試例項的特徵向量,shape:(1000, 1433)
  ind.dataset_str.allx => 有標籤的+無無標籤訓練例項的特徵向量,是ind.dataset_str.x的超集,shape:(1708, 1433)
  ind.dataset_str.y => 訓練例項的標籤,獨熱編碼,numpy.ndarray類的例項,是numpy.ndarray物件,shape:(140, 7)
  ind.dataset_str.ty => 測試例項的標籤,獨熱編碼,numpy.ndarray類的例項,shape:(1000, 7)
  ind.dataset_str.ally => 對應於ind.dataset_str.allx的標籤,獨熱編碼,shape:(1708, 7)
  ind.dataset_str.graph => 圖資料,collections.defaultdict類的例項,格式為 {index:[index_of_neighbor_nodes]}
  ind.dataset_str.test.index => 測試例項的id,2157行