半監督-Learning Discrete Structures for Graph Neural Networks

阿新 • • 發佈：2021-12-07

標籤：圖神經網路

動機

圖神經網路主要優點是能夠在資料點之間結合稀疏和離散的依賴關係, 但是, 圖神經網路也只能在這樣的圖結構進行使用, 而在真實的世界中的圖通常是帶有噪聲和不完整的, 或者根本不可用的

貢獻

提出近似求解一個學習圖的邊上的離散概率分佈的雙層規劃和學習圖卷積網路的圖結構和引數

思想

定義

符號定義

一個無向圖 $\mathcal{G} = \{\mathcal{V}, \mathcal{E}, A\}$, 頂點集合 $|\mathcal{V}| = N$, 邊集合 $\mathcal{E} = M$, $A \in \mathcal{H}_N$ 是一個鄰接矩陣, 特徵矩陣 $X \in \mathcal{X}_N \subset \mathbb{R} ^{N \times n}$

框架

首先是輸入資料節點, 利用圖生成器生成圖, 然後進行圖取樣, 優化內目標函式, 即計算梯度和更新 GCN 引數, 優化外目標函式, 計算超引數和更新圖生成器 $\theta$.

演算法

Jointly Learning the Structure and Parameters

假設關於真實鄰接矩陣 $A$ 的資訊缺失或不完整, 最終是尋找一個最小化泛化誤差的模型, 假設存在第二個具有已知目標的例項子集 $V_{val}$, 估計推廣誤差, 提出尋找 $A\in \mathcal{H}_N$, 最小化以下引數

\[F(w_A, A) = \sum_{v \in V_{val}}\ell(f_{w,A}(X,A)_V，y_v)~~~~~~~~~(6) \]

假設 $w_A$ 是 $L$ 唯一最小值, 我們將等式 $(2)、(6)$ 構成一個混合整數雙層規劃問題的內部目標函式和外部目標函式, 其中外部目標旨在找到最優離散圖結構, 內部目標是給定圖的 GCN 的最優引數. 由此產生雙層規劃問題即使對小圖也很難精確解決, 此外, 它既包含連續變數也包含離散值變數, 這使得無法應用公式 $(5)$, 所以本文維護了圖結構的生成模型, 並根據離散圖上的分佈的 (連續) 引數重構雙層規劃問題; 也就是用伯努利 $Bernoulli$ 隨機變數對每條邊建模, 設 $\bar{H} =Conv(\mathcal{H}_N)$ 是 $N$ 個節點所有鄰接矩陣集的凸包, 通過將所有可能的邊建模為一組具有引數矩陣 $\theta \in \mathcal{H}_N$ 的相互獨立的伯努利隨機變數，我們可以將圖取樣為 $\mathcal{H} \ni A \sim Ber(\theta)$. $(2)$ 和 $(6)$ 然後可以被替換，通過使用圖結構上的期望。由此產生的雙層問題可以寫成:

\[min_{\theta \in \bar{H}_N} \mathbb{E}_{A \sim Ber(\theta)}[F(w_{\theta}, A)] ~~~~(7)~~~s.t.~~~ w_{\theta} = \arg \min \mathbb{E}_{A \sim Ber{(\theta)}}[L(w, A)] ~~~~~~(8) \]

通過採用期望, 內部和外部目標都成為伯努利引數的連續 (並且可能平滑)函式. 方程給出的雙層規劃問題. $(7)-(8)$ 仍然很難有效解決. 這是因為內部問題的解在封閉形式下對於 GCNs 是不可用的(目標是非凸的); 而且期望值很難精確計算. 因此, 有效的演算法只能找到近似的隨機解，即 $\theta_{i，j} \in (0，1)$ 在描述一種解決方程給出的優化問題的方法之前. $(7)-(8)$ 大約在超梯度下降的情況下，我們首先轉向獲得最終 GCN 模型的問題, 該模型可用於預測. 對於具有 $N$ 個節點和引數 $\theta$ 的圖上的給定分佈 $P_{\theta}$, GCN 的期望輸出是:

\[f_{w}^{exp}(X) = \mathbb{E}_A[f_w(X,A)] = \sum_{A \in \mathcal{H}_N}P_{\theta}(A)f_w(X,A) ~~~~~(9) \]

不幸的是，即使對於小圖，計算這個期望也是難以處理的；然而，我們可以計算出輸出的經驗估計:

\[\hat{f}_{w}(X) = \frac{1}{S}\sum_{i = 1}^{S} f_w(X,A) ~~~~~~~~~~~~(10) \]

其中 $S > 0 $ 是我們希望抽取的樣本數量. 注意, $f$ 是 $f ^{exp}_w$ 的無偏估計量. 因此, 為了使用具有雙層公式的 GCN $f_w$進行預測, 我們從分佈 $P_θ$ 中取樣 $S$ 圖, 並將預測計算為 $f_w$ 值的經驗平均值

Structure Learning via Hypergradient Descent

雙層規劃形式自然適合於為特定的下游任務學習圖形生成模型和GNN引數的問題. 這裡, 外部變數θ是圖生成模型的引數, 內部變數w是GCN的引數. 我們現在討論一個實用的演算法來處理方程定義的雙層問題. (7)和(8). 關於內點問題, 我們注意到期望

\[ \mathbb{E}_{A \sim Ber(\theta)}[L(w,A)] = \sum_{A \in \mathcal{H}_N}P_{\theta}(A)f_w(X,A) ~~~~~~~~~(11) \]

由 $2^{N^2}$ 項之和組成, 即使對於相對較小的圖也是難以處理的. 然而, 我們可以選擇易處理的近似學習動態 $\Phi$, 例如隨機梯度下降( SGD ):

\[w_{\theta, t + 1} = \Phi(w_{\theta, t}, A_t) = w_{\theta,t} - \gamma_t \nabla L(w_{\theta, t}, A_t) \]

其中 $\gamma$ 是學習速率, 在每次迭代時畫出At∞Ber(θ). 在適當的假設下, 對於 $t → ∞$, SGD 收斂到一個依賴於邊的概率分佈的權向量 $w_θ$。設 $w_{θ, T}$ 為$\mathbb{E}[L]$ 的近似極小值(其中 $T$ 可能取決於 $θ$ ). 我們現在需要計算超輻射$∇_{\theta} \mathbb{E}_{A∼Ber(θ)}[F]$ . 的估計量我們有:

\[\nabla_{\theta} \mathbb{E}[F(w_{\theta, T}, A)] = \mathbb{E}[\nabla(w_{\theta,T}, A)] = \mathbb{E}[\partial_wF(w_{\theta, T}, A) \nabla_{\theta} w_{\theta, T} + \partial_A F(w_{\theta,T}, A)\nabla_{\theta}A] \]

偽碼

實驗

半監督節點分類任務

總結

提出了 LDS ，一個同時學習圖結構和 GNN 引數的框架。雖然我們在實驗中使用了特定的 GCN 變體(Kipf & Welling，2017)，但該方法更普遍地適用於其他神經網路。LDS 的優勢在於它以合理的計算成本在典型的半監督分類資料集上獲得了高精度。此外，由於圖生成模型 LDS 學習，邊緣引數具有概率解釋。這種方法有其侷限性。雖然效率相對較高，但它目前無法擴充套件到大型資料集:這將需要一個能夠處理小批量節點的實現。當所有資料點(節點)在訓練期間都可用時，我們僅在轉導設定中評估 LDS 。在訓練之後新增額外的節點(歸納設定)目前需要從頭開始重新訓練整個模型。當對圖進行取樣時，我們當前不強制圖是連通的

半監督-Learning Discrete Structures for Graph Neural Networks

動機

貢獻

思想

定義

符號定義

相關工作

圖神經網路

雙層規劃問題

框架

演算法

Jointly Learning the Structure and Parameters

Structure Learning via Hypergradient Descent

偽碼

實驗

總結

半監督-Learning Discrete Structures for Graph Neural Networks

自監督- Multi-Stage Self-Supervised Learning for Graph Convolutional Networks on Graphs with Few Labeled Nodes

論文閱讀筆記: Cyclical Learning Rates For Training Neural Networks

自監督-SelfGNN: Self-supervised Graph Neural Networks without explicit negative sampling

MixGCF: An Improved Training Method for Graph Neural Network-based Recommender Systems閱讀筆記

Understanding the Representation Power of Graph Neural Networks in Learning Graph Topology-NIPS2019

論文解讀（GCC）《GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training》

圖神經網路論文閱讀(十六) GraLSP: Graph Neural Networks with Local Structural Patterns,AAAI 2020

cs224w 圖神經網路學習筆記（九）Graph Neural Networks 圖神經網路

圖神經網路論文閱讀(十九) Position-aware Graph Neural Networks，ICML2019

TARGETDROP: A TARGETED REGULARIZATION METHOD FOR CONVOLUTIONAL NEURAL NETWORKS

Sequential Recommendation with Graph Neural Networks閱讀筆記

Improving the Learning Speed of 2-Layer Neural Networks by Choosing Initial Values of the Adaptive Weights

論文解讀（SelfGNN）《Self-supervised Graph Neural Networks without explicit negative sampling》

半監督- Distance-wise Graph Contrastive Learning

【論文筆記（5）ECCV2020】Graph convolutional networks for learning with few clean and many noisy labels

《A Lexicon-Based Graph Neural Network for Chinese NER》思維導圖筆記

細粒度相關 - Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks - 1 - 論文學習

論文解讀（CSSL）《Contrastive Self-supervised Learning for Graph Classification》

【DMCP】2020-CVPR-DMCP Differentiable Markov Channel Pruning for Neural Networks-論文閱讀

半監督-Learning Discrete Structures for Graph Neural Networks

動機

貢獻

思想

定義

符號定義

相關工作

圖神經網路

雙層規劃問題

框架

演算法

Jointly Learning the Structure and Parameters

Structure Learning via Hypergradient Descent

偽碼

實驗

總結

相關推薦