GNN實驗（一）

阿新 • • 發佈：2022-03-09

GNN實驗

實驗一

論文：《Semi-Supervised Classification with Graph Convolutional Networks》

資料集：Cora（主要利用論文之間的相互引用關係，預測論文的分類）

注意：之所以叫做半監督分類任務（Semi-Supervised Classification），這個半監督意思是，訓練的時候使用了未標記的資料，在這篇論文中未標記的資料的使用，體現在鄰接矩陣的使用上，從load_data函式的具體實現可以知道剛開始就構建了所有資料的鄰接矩陣，既有有label的也有希望test的（遮住label的）

程式碼講解

整體的程式碼結構

layers.py：定義了圖卷積層

models.py：模型的整體架構

train.py：資料集的載入、訓練、測試

utils.py：accuracy測試、載入資料函式封裝、其它

程式碼根據如下公式進行組織

\(Z=f(X,A)=softmax(\hat A ReLU(\hat AXW^0)W^1)\)

# nfeat : 輸入的維度
# nhid  : 隱藏層的維度
# nclass: 預測的論文類別數
# x : 輸入
# adj : 經過處理的鄰接矩陣
gc1 = GraphConvolution(nfeat, nhid)
gc2 = GraphConvolution(nhid, nclass)

def forward(self, x, adj):
    x = F.relu(self.gc1(x, adj))
    # 有一個小細節，如果要dropout生效，必須新增training=self.training
    x = F.dropout(x, self.dropout, training=self.training)
    x = self.gc2(x, adj)
    return F.log_softmax(x, dim=1)

圖卷積層的定義

def forward(self, input, adj):
    # X * W^0
    support = torch.mm(input, self.weight)
    # A * X * W^0
    output = torch.spmm(adj, support)#稀疏矩陣相乘
    # 是否新增偏置
    if self.bias is not None:
        return output + self.bias
    else:
        return output

資料預處理

cora資料集由論文組成

cora.cites: 包含論文之間的引用關係

cora.content:包含論文的id，論文中包含的詞彙，論文的類別

for example：

cora.cites:

35 1033
35 103482
35 103515
35 1050679

cora.content:

31336 (0 1 0......0) Neural_Networks

中間1433維，帶1的表示包含那個位置的語料，Neural_Networks 即為label

標籤one-hot編碼

def encode_onehot(labels):
    # 獲取論文標籤的類別集合，用set可以快速獲取
    # 注意：標籤是中文的，不是直接給的數字，需要處理成數字
    classes = set(labels)
    classes_dict = {c: np.identity(len(classes))[i, :] for i, c in
                    enumerate(classes)}
    labels_onehot = np.array(list(map(classes_dict.get, labels)),
                             dtype=np.int32)
    return labels_onehot
# 提取原始資料的最後一行，也就是類別
labels = encode_onehot(idx_features_labels[:, -1])
labels = torch.LongTensor(np.where(labels)[1])

鄰接矩陣建立和處理

論文ID不是從0開始，於是重新將它編號

idx = np.array(idx_features_labels[:, 0], dtype=np.int32)# 提取index
idx_map = {j: i for i, j in enumerate(idx)}# 從0開始編號

將cora.cites檔案中的論文ID替換

# 獲取邊
edges_unordered = np.genfromtxt("{}{}.cites".format(path, dataset),dtype=np.int32)
# 重新標號，flatten方法使得資料格式能夠用map函式處理
edges =np.array(list(map(idx_map.get,edges_unordered.flatten())),dtype=np.int32).reshape(edges_unordered.shape)

準備工作完成，可以構造鄰接矩陣了

'''
引數說明：
coo_matrix(data,(row,col),shape)
 	np.ones(edges.shape[0]) -------> 邊的數量為edges.shape[0],鄰接矩陣中有邊的位置填充為1
 	(edges[:, 0], edges[:, 1]) ------> (row,col)
'''
# 此處作為稀疏矩陣儲存，佔的空間少一點
adj = sp.coo_matrix((np.ones(edges.shape[0]), (edges[:, 0], edges[:, 1])),
                     shape=(labels.shape[0], labels.shape[0]),
                     dtype=np.float32)
# 根據其它博主的說法，下面的語句和adj = adj + adj.T.multiply(adj.T > adj) 意思和作用是一樣的，可能作者在實現的時候沒考慮到？
adj = adj + adj.T.multiply(adj.T > adj) - adj.multiply(adj.T > adj)

根據以下公式，對鄰接矩陣進行處理，也就是文中提到的renormalization trick

\(I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}} -----> \tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}\)

其中\(I_N\)是單位矩陣，\(\tilde A = A + I_N,\tilde D_{ii} = \sum_j\tilde A_{ij}\)

def normalize(mx):
    """Row-normalize sparse matrix"""
    # 將每一行求和
    rowsum = np.array(mx.sum(1))
    # 將每一行的和作為分母
    r_inv = np.power(rowsum, -1).flatten()
    # 0的倒數為無窮大，因此需要剔除為0
    r_inv[np.isinf(r_inv)] = 0.
    # 對角線矩陣，對角線上的元素是上面的r_inv
    r_mat_inv = sp.diags(r_inv)
    # 矩陣點乘，也就是除以r_inv
    mx = r_mat_inv.dot(mx)
    return mx
# 在原先的鄰接矩陣上對角線填充為1，相當於一個自環操作
# 然後標準化就可以了
# 為什麼不乘D？因為直接矩陣內部歸一化和這個操作是等價的（沒試驗過，可以自行進行計算驗證）
adj = normalize(adj + sp.eye(adj.shape[0]))

訓練

補充：

torch.max()[0]，只返回最大值的每個數
troch.max()[1]，只返回最大值的每個索引
torch.max()[1].data 只返回variable中的資料部分（去掉Variable containing:）
torch.max()[1].data.numpy() 把資料轉化成numpy ndarry
torch.max()[1].data.numpy().squeeze() 把資料條目中維度為1 的刪除掉

def accuracy(output, labels):
    preds = output.max(1)[1].type_as(labels)
    correct = preds.eq(labels).double()
    correct = correct.sum()
    return correct / len(labels)

model.train()
optimizer.zero_grad()
output = model(features, adj)
loss_train = F.nll_loss(output[idx_train], labels[idx_train])# 全稱為the negative log likelihood loss
acc_train = accuracy(output[idx_train], labels[idx_train])
loss_train.backward()
optimizer.step()

訓練結果

Epoch: 0190 loss_train: 0.4485 acc_train: 0.9143 loss_val: 0.7083 acc_val: 0.8067 time: 0.0070s
Epoch: 0191 loss_train: 0.4087 acc_train: 0.9286 loss_val: 0.7086 acc_val: 0.8067 time: 0.0120s
Epoch: 0192 loss_train: 0.4215 acc_train: 0.9357 loss_val: 0.7085 acc_val: 0.8100 time: 0.0080s
Epoch: 0193 loss_train: 0.4282 acc_train: 0.9643 loss_val: 0.7078 acc_val: 0.8100 time: 0.0080s
Epoch: 0194 loss_train: 0.4115 acc_train: 0.9214 loss_val: 0.7078 acc_val: 0.8133 time: 0.0060s
Epoch: 0195 loss_train: 0.4394 acc_train: 0.9357 loss_val: 0.7080 acc_val: 0.8100 time: 0.0060s
Epoch: 0196 loss_train: 0.4254 acc_train: 0.9214 loss_val: 0.7080 acc_val: 0.8100 time: 0.0070s
Epoch: 0197 loss_train: 0.4243 acc_train: 0.9286 loss_val: 0.7076 acc_val: 0.8067 time: 0.0060s
Epoch: 0198 loss_train: 0.3971 acc_train: 0.9286 loss_val: 0.7070 acc_val: 0.8067 time: 0.0100s
Epoch: 0199 loss_train: 0.4467 acc_train: 0.9357 loss_val: 0.7059 acc_val: 0.8133 time: 0.0060s
Epoch: 0200 loss_train: 0.4267 acc_train: 0.9214 loss_val: 0.7042 acc_val: 0.8133 time: 0.0060s

Test set results: loss= 0.7397 accuracy= 0.8410

能夠達到論文中80多的正確率

GNN實驗（一）

GNN實驗實驗一論文：《Semi-Supervised Classification with Graph Convolutional Networks》程式碼：https://github.com/tkipf/pygcn

Zynq與PC間的乙太網通訊實驗（一）——方案確定

目標：將PL側的資料通過乙太網介面傳給PC。 Zynq板卡選用的是ZC706，上面有板載的乙太網PHY晶片，因此需要在Zynq上（至少）實現一個MAC層的功能。

20212205王子權實驗（一）《Python程式設計》實驗報告

課程：《Python程式設計》班級： 2122 姓名：王子權學號：20212205 實驗教師：王志強

實驗（一）

實驗現象準備建立的topicA、topicB，每個都是16個訊息佇列; 建立了同一個消費者組：ntm-hxy-group

SpinalWorkshop實驗筆記（一）

概述最近在學習SpinalHDL，在github上看到了SpinalHDL實驗，於是試著做了做。雖然這些實驗的答案在倉庫裡給出來了，但我是FPGA初學者，雖然會一點verilog卻對各種匯流排一竅不通，也不瞭解scala，所以即使要理解這

Mac 開發（一）蘋果沙盒機制sandbox簡介

@[TOC] Mac 開發（一）蘋果沙盒機制sandbox簡介 mac沙盒實戰demo點選這裡下載：【MacFileAccessInSandbox】

基於MVVM構建聊天App （一）從新建工程開始

小時光北京體適能體育科技有限公司在開發一個新的App時不僅要考慮當前版本的需求，更要考慮到後期的版本迭代和維護工作《Clean Code》一書中也提出程式碼大部分時候是用來維護的，而不是用來實現功能的。所以在前

RabbitMQ入門（一）—— CentOS7 搭建 RabbitMQ

本文以RabbitMq的執行搭建做一個簡單的筆記 MQ （Message Que）的作用非同步：提高業務上的響應速度。

帶你入坑大資料（一） --- HDFS基礎概念篇

前言從零開始的高併發系列我們已經把 zookeeper 給更新完了，順帶一提之前的zookeeper並沒有結合大資料來進行說明。重新開個坑一方面是一直都想找個理由來總結一下大資料方面的東西，另一方面則是抓住時代的走向吧，

Dubbo原始碼解析（一）Hello,Dubbo

Hello,Dubbo 你好，dubbo，初次見面，我想和你交個朋友。 Dubbo你到底是什麼？先給出一套官方的說法：Apache Dubbo是一款高效能、輕量級基於Java的RPC開源框架。

Node 使用 Egg 框架之上TS 的教程（一）

Node + Egg + TS + Mongodb + Resetful 作為一個從優美的、面向物件的、專業的：C、C++、C#、JAVA一路過來的程式設計師，開始讓我寫JS，我是拒絕的。這哪裡是在寫程式碼，明明是在寫 console.log() 啊！！! 連少個

並行程式設計和任務（一）

前言　　併發、並行。同步、非同步、互斥、多執行緒。我太難了。被這些詞搞懵了。前面我們在寫.Net基礎系列的時候寫過了關於.Net的非同步程式設計。那麼其他的都是些什麼東西呀。今天我們首先就來解決這個問題。把這

使用IDEA+springboot建立ssm+gradle專案（一）

建立專案新建專案，選擇SpringIntializr,建立方式選擇spring官方連結即可。(點開此連結也可以線上建立專案)

Spring Cloud Gateway （一）入門篇

1.閘道器是怎麼演化來的單體應用拆分成多個服務後，對外需要一個統一入口，解耦客戶端與內部服務

web爬蟲系列（一）- 爬取電影天堂迅雷地址

一、爬蟲介紹目前爬蟲框架層出不窮，當然很多公司也會根據自己的業務做二次開發，Java的有WebMagic和WebCollector等，Python的有PySpider和Scrapy等。不能說孰好孰壞，只能說根據自己的業務場景選擇不同框架，Pytho

Flink 系列（一）—— Flink 核心概念綜述

一、Flink 簡介 Apache Flink 誕生於柏林工業大學的一個研究性專案，原名 StratoSphere 。2014 年，由 StratoSphere 專案孵化出 Flink，並於同年捐贈 Apache，之後成為 Apache 的頂級專案。2019 年 1 年，阿里巴巴收

OC和Swift混編（一）——OC與Swift相互呼叫

WWDC推出了SwiftUI、Combine，僅Swift可用~為了能順利的也吃上SwiftUI，我也打算將自己的專案先從OC慢慢遷移到Swift，所以～一起從混編開始！

CMake學習筆記（一）基本概念介紹、入門教程及CLion安裝配置

什麼是構建系統在軟體開發中，構建系統（build system）是用來從原始碼生成使用者可以使用的目標的自動化工具。目標可以包括庫、可執行檔案、或者生成的指令碼等等。

資料倉庫學習筆記（一）

美團OneData數倉 source: tech.meituan.com/2019/10/17/… Terms OneData: 阿里巴巴提出的數倉建設標準

API介面開發（一）：介面開發返回結果解決方案

摘要採用前後端分離的方式進行專案開發，那麼前後端互動比較好的方式是採用HTTP+JSON。如何介面返回結果更加簡潔，更加優雅，也更加合理，並且讓前端開發人員看得明白，後端開發者也並不會因此而增加工作量呢？

GNN實驗（一）

GNN實驗

實驗一

程式碼講解

訓練結果

相關推薦