自監督-Iterative Graph Self-distillation
阿新 • • 發佈:2021-11-22
自監督-Iterative Graph Self-distillation
標籤:自監督、圖神經、知識蒸餾、圖學習、對比學習
動機
- 在各個領域圖是普遍存在,雖然最近的圖神經網路 GNN 在節點表示和圖表示方面有很大的進展,其都是通過聚合鄰居資訊結合自身資訊並通過非線性變換,但是這些網路的一個關鍵是需要大量的帶有標籤化的資料才有很有的效能展示
- 雖然借鑑了影象領域或者文字領域的自我監督表徵學習,但是大多是遵循代理任務(前置任務)的自監督預處理正規化或者通過 InfoMax 原理進行對比學習,前者需要精細的設定,而對比學習通過構造正負樣本最大化互資訊,並且需要額外的判別器對區域性-全域性對和負樣本進行評分
貢獻
- 提出了一種圖上自蒸餾框架 ---- IGSD,主要用於自監督學習上的圖表示學習
- 進一步將IGSD擴充套件到半監督場景,在該場景中,通過監督對比損失和自我訓練有效地利用了標記資料
- IGSD在半監督圖分類和分子性質預測任務中超越了最先進的方法,並在自監督圖分類任務中實現了與最先進的方法相競爭的效能
思想
核心
在對比學習的框架下,結合自蒸餾技術使得教師網路同時對學生網路進行訓練
框架
對於一個圖資料集合首先進行分批,對於三個原圖 \(G_1、G_2、G_3\),利用擴散技術對原圖進行增強得到 \(G_1'、G_2'、G_3'\),
都經過一個編碼器 Encoder \(f_{\theta}\)
通過編碼器得到一個圖的表示 \(h\) 後經過一個投影頭 \(g_{\theta}\)(兩層的MLP):
\[z = g_{\theta}(h)\\ g_{\theta}(h) = W^{(2)}\sigma(w^{(1)}h) \]投影后得到 \(z\) ,對於學生網路我們還有一個預測器 \(h_{\theta}\):
\[h_{\theta} (z) = W^{(2)}\sigma(W^{(1)}z) \]得到 \(z、h_{\theta}(z)\)
由於一致性損失,教師網路提供了一個迴歸目標來訓練學生網路,並且使用梯度更新了學生網路的權重之後,使用 EMA(exponential moving average 指數移動平均) 更新教師網路的權重:
\[{\theta}_t' \leftarrow \tau{\theta}_{t - 1}' + (1 - \tau){\theta}_t \]資料增強
-
在資料加強方面通過圖擴散和稀疏化將帶有轉移矩陣 \(T\) 的圖 \(G\) 變換為帶有鄰接矩陣 \(S\) 的新圖:
\[S = \sum_{k = 0} ^ {\infty}{\theta}_kT^k \\ {\theta}_k^{PPR} = {\alpha}(1 - \alpha)^k \\ \] -
另一中方法是隨機移除邊達到破壞圖的效果
損失函式
在自監督學習中,為了對比 錨點(anchor)\(G_i\) 和其他負樣例 \(G_j\) ,採用一下目標函式:
\[L^{self-sup} = -E_{G_i G} [\frac{exp(-L_{i,i}^{con})}{exp(-L_{i,i}^{con}) + \sum_{j = 1}^{N-1}I_{i≠j}exp(-L_{i,j}^{con})}] \]在最後的圖表示中,我們利用混合函式獲得最後圖的表示:
\[Mix_{\lambda}(a, b) = {\lambda} a + (1 - {\lambda})b \\ \hat{h} = Mix_{\lambda}(h, h')\\ h = f_{\theta}(G) ~~~~~~~~~~~~ h' = f_{\theta'}(G) \]在半監督學習中,可以使用少量的標記資料來進一步概括相似性損失,以處理任意數量的屬於同一類的正樣本:
\[L^{supcon} = \sum_{i = 1}^{Kl}\frac{1}{KN_{y'}}\sum_{j=1}^{Kl}I_{i≠j}I_{y_i'≠y_j'}L^{con}(G_i, G_j) \]最後半監督的損失函式:
\[L^{semi}=L(G_L,{\theta}) + wL^{self-sup}(G_L ∪G_U, \theta) + w'L^{supcon}(G_L,\theta) \]實驗
自監督學習中圖分類任務的準確率
半監督下進行圖分類任務的準確率
結論
在本文中,提出了IGSD,一個新的圖級表示學習框架,通過自我蒸餾。我們的框架通過對圖例項的增廣檢視進行例項判別來迭代執行師生蒸餾。