1. 程式人生 > 其它 >改善圖形神經網路,提升GNN效能的三個技巧

改善圖形神經網路,提升GNN效能的三個技巧

GNN 提供了一種在圖結構化資料上使用深度學習技術的方法。圖結構資料無處不在:從化學(例如分子圖)到社交媒體(例如社交網路)以及金融投資(例如 VC 投資網路),GNN 在各種任務中顯示出最先進的效能¹ ²。

在我的以前的一個實踐:在投資者、初創公司和個人組成的投資網路上預測初創公司未來的融資輪次,其基線隨機森林模型已經相當強大(AUC = 0.69)。但是GNN 模型(AUC = 0.66)一直落後於基線模型的效能,並且增加層數和隱藏維度並沒有幫助。所以我開始研究,發現 GNN 並不簡單。

為了解決這個問題,本文總結了一些技巧來提高 GNN 模型的效能。

什麼是 GNN?

在討論如何改進 GNN 之前,讓我們快速回顧一下它們的工作原理。假設我們有一個簡單的圖表,如下所示:

圖包含節點(i、j 和 k)和連線這些節點的邊(e)。此外,圖還包括每個節點(X1,...)和可能的每條邊(黑色)的節點特徵。目標節點以黃色著色,其 1 跳鄰居為藍色,2 跳鄰居以綠色表示。包括不同型別節點的圖稱為“異構”圖,就像上面的例子一樣。

訊息傳遞

步驟 0 中節點的嵌入只是由其自身的特徵向量(由特徵 X1、X2……組成)。為了獲得新的 (l + 1) 節點嵌入 h,對於目標節點 i(黃色),需要從其相鄰節點 j(藍色)中提取所有嵌入,提取其自身的表示以及潛在的邊緣特徵e(黑色)並聚合該資訊。這具體步驟參考下面的公式。但是,目前大多數著名的 GNN 架構都沒有使用邊緣特徵⁵。在提取特徵之後就可以將這些新的節點嵌入用於各種任務,例如節點分類、連結預測或圖分類。

GNN 的問題

許多最近跨領域的研究發現 GNN 模型沒有提供預期的效能⁵ ⁶ ⁷。當研究人員將它們與更簡單的基於樹的基線模型進行比較時,GNN 甚至無法超越基線的模型,例如我們上面提到的隨機森林。

一些研究人員對 GNN 有時表現不佳提供了理論解釋⁸。根據他們的實驗,GNN 只進行特徵去噪,無法學習非線性流形。因此他們主張將 GNN 視為圖學習模型的一種機制(例如,用於特徵去噪),而不是他們自己的完整的端到端模型。

為了解決這些問題並提升 GNN,本文總結了 3 個主要技巧/想法:

  • 在 GNN 中利用邊緣特徵
  • GNN 的自我監督預訓練
  • 分離前置和下游任務

完整文章

https://www.overfit.cn/post/bfaf84ba0c204ad08689016a79130dd5