GCN資料集Cora、Citeseer、Pubmed檔案分析
阿新 • • 發佈:2022-03-23
1 簡介
本文將對Cora、Citeseer、Pubmed 資料集進行詳細介紹
資料集 | 圖 | 節點 | 邊 | 特徵 | 標籤(y) |
Cora | 1 | 2708 | 5429 | 1433 | 7 |
Citeseer | 1 | 3327 | 4732 | 3703 | 6 |
Pubmed | 1 | 19717 | 44338 | 500 | 3 |
GCN 檔案內容:
├── gcn │ ├── data //圖資料 │ │ ├── ind.citeseer.allx │ │ ├── ind.citeseer.ally │ │ ├── ind.citeseer.graph │ │ ├── ind.citeseer.test.index │ │ ├── ind.citeseer.tx │ │ ├── ind.citeseer.ty │ │ ├── ind.citeseer.x │ │ ├── ind.citeseer.y │ │ ├── ind.cora.allx │ │ ├── ind.cora.ally │ │ ├── ind.cora.graph │ │ ├── ind.cora.test.index │ │ ├── ind.cora.tx │ │ ├── ind.cora.ty │ │ ├── ind.cora.x │ │ ├── ind.cora.y │ │ ├── ind.pubmed.allx │ │ ├── ind.pubmed.ally │ │ ├── ind.pubmed.graph │ │ ├── ind.pubmed.test.index │ │ ├── ind.pubmed.tx │ │ ├── ind.pubmed.ty │ │ ├── ind.pubmed.x │ │ └── ind.pubmed.y │ ├── __init__.py │ ├── inits.py //初始化的公用函式 │ ├── layers.py //GCN層定義 │ ├── metrics.py //評測指標的計算 │ ├── models.py //模型結構定義 │ ├── train.py //訓練 │ └── utils.py //工具函式的定義 ├── LICENCE ├── README.md ├── requirements.txt └── setup.py
三種資料都由以下八個檔案組成,儲存格式類似,以cora為例:
ind.dataset_str.x => 訓練例項的特徵向量,是scipy.sparse.csr.csr_matrix類物件,shape:(140, 1433) ind.dataset_str.tx => 測試例項的特徵向量,shape:(1000, 1433) ind.dataset_str.allx => 有標籤的+無無標籤訓練例項的特徵向量,是ind.dataset_str.x的超集,shape:(1708, 1433) ind.dataset_str.y => 訓練例項的標籤,獨熱編碼,numpy.ndarray類的例項,是numpy.ndarray物件,shape:(140, 7) ind.dataset_str.ty => 測試例項的標籤,獨熱編碼,numpy.ndarray類的例項,shape:(1000, 7) ind.dataset_str.ally => 對應於ind.dataset_str.allx的標籤,獨熱編碼,shape:(1708, 7) ind.dataset_str.graph => 圖資料,collections.defaultdict類的例項,格式為 {index:[index_of_neighbor_nodes]} ind.dataset_str.test.index => 測試例項的id,2157行