1. 程式人生 > 其它 >幾何深度學習(Geometric Deep Learning)技術

幾何深度學習(Geometric Deep Learning)技術

幾何深度學習(Geometric Deep Learning)技術

幾何深度學習綜述

從論文Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges,瞭解一下幾何深度學習。

 

 

 https://geometricdeeplearning.com關於這個主題,研究者甚至建了一個網站

幾何深度學習——Geometric Deep Learning

幾何深度學習,從對稱性和不變性的角度,嘗試對一大類機器學習問題進行統一。

因此,幾何深度學習,指的不是某一個演算法,而是在許多演算法中找到一個共同點,進行概況。

深度學習(表徵學習)領域的現狀讓人想起十九世紀的幾何學情況:

一方面,在過去十年中,深度學習給資料科學帶來了一場革命,使許多以前被認為是無法完成的任務成為可能--無論是計算機視覺、語音識別、自然語言翻譯,還是下圍棋。另一方面,現在有各種不同的神經網路架構,用於不同型別的資料,但很少有統一的原則。

因此,很難理解不同方法之間的關係。

找到演算法的共性,以此為框架,作為一種思想,啟發後人的演算法結構設計。

 

 

 一個幾何特性(geometric prior)——縮放,如文中下圖所示,表示了一種縮放的近似。

 

 

 f‘可以由f經過縮放運算P來得到

下圖反映了另一種幾何不變性,從“數字3”的位置從點u -> g,但圖片內容沒有發生變化(圖片還是代表數字3)。

 

 

 一種幾何不變性

根據上述幾何具有的特點,得到了幾何深度學習的藍圖。可以在大多數用於表徵學習的流行的深度神經架構中得到認可:一個典型的設計包括一連串的等值層(例如CNN中的卷積層),之後是一個不變的全域性池化層,將所有東西聚整合一個輸出。

 

 

 幾何深度學習的藍圖

有了藍圖,接下來是特點的概況,如下圖

The 5G of Geometric Deep Learning: grids, groups & homogeneous spaces with global symmetry, graphs, geodesics & metrics on manifolds, and gauges

(frames for tangent or feature spaces).

 

 

 幾何深度學習的5個特性

熟悉的卷積神經網路(CNN),圖神經網路(GNN),迴圈神經網路(RNN)等,都能被作者歸於這個框架之中。

目的就是概況現有深度學習的框架,說明共性,啟發後續研究者。

 

 

 第一作者MSP論文

此外,作者在2017年MSP的一篇論文Geometric Deep Learning: Going beyond Euclidean data中,提出了幾何深度學習。所以,這不算是一個全新的概念。

論文中提到了一些深度學習演算法的幾何特性,例如平移不變性等,

沒有解決,深度學習結果的可解釋性的問題。

 

 

 如何突破基於 WL 測試和訊息傳遞機制的 GNN 的效能瓶頸?且看幾何深度學習旗手、牛津大學教授 Michael Brostein 如是說。

編譯丨OGAI

圖可以方便地抽象關係和互動的複雜系統。社交網路、高能物理、化學等研究領域都涉及相互作用的物件(無論是人、粒子還是原子)。在這些場景下,圖結構資料的重要性日漸凸顯,相關方法取得了一系列初步成功,一系列工業應用使得圖深度學習成為機器學習方向的熱門研究話題之一。

 

 

 圖注:通過圖對複雜系統的關係、互動進行抽象。例如,「分子圖」中構成分子的原子至今的化學鍵,「社交網路」中使用者之間的關係和互動,「推薦系統」中使用者和商品之間的聯絡。

受物理啟發的圖上的持續學習模型可以克服傳統 GNN 的侷限性。多年來,訊息傳遞一直是圖深度學習領域的主流正規化,使圖神經網路(GNN)在粒子物理到蛋白質設計的廣泛應用中取得了巨大成功。

從理論角度,建立了與 Weisfeiler-Lehman(WL)層次結構的聯絡,可以以此分析 GNN 的表達能力。但是在 Michael Brostein 看來,當前圖深度學習方案「以節點和邊為中心」的思維方式帶來了無法克服的侷限性,阻礙了該領域未來的發展。

另一方面,在關於幾何深度學習的最新綜述中,Brostein 提出了受物理啟發的持續學習模型,從微分幾何、代數拓撲和微分方程等領域出發開啟了一系列新工具的研究。到目前為止,圖機器學習領域中還鮮有此類研究。

針對Bronstein的最新思考,AI科技評論做了不改原意的整理與編譯:

1圖神經網路的工作原理

GNN 的輸入為具有節點和邊特徵的圖,計算一個既依賴於特徵又依賴於圖結構的函式。訊息傳遞類的 GNN(即 MPNN)通過交換相鄰節點之間的資訊在圖上傳播特徵。典型的 MPNN 架構由幾個傳播層組成,基於鄰居特徵的聚合函式對每個節點進行更新。根據聚合函式的不同,可以將 MPNN分為:卷積(鄰居特徵的線性組合,權值僅依賴於圖的結構)、注意力(線性組合,權值依賴於圖結構和特徵)和訊息傳遞(廣義的非線性函式)。訊息傳遞 GNN 是最常見的,前者可以視為訊息傳遞 GNN 的特殊情況。

 

 

 圖注:GNN 的三種風格——卷積、注意力和廣義非線性資訊傳遞風格,都是訊息傳遞的表現形式。

傳播層由基於下游任務學習的引數構成,典型的用例包括:節點嵌入(每個節點表示為向量空間中的一個點,通過點之間的距離恢復出原始圖的連通性,此類任務被稱為「連結預測」),節點級的分類或迴歸(如推斷社交網路使用者的屬性),或者通過進一步聚合節點的特徵進行圖級別的預測(例如,預測分子圖的化學性質)。

2訊息傳遞 GNN 的不足之處

GNN 在多個方面都取得了令人印象深刻的成功,最近的相關研究具有相當的廣度和深度。但是,當下的圖深度學習正規化的主流模型是:對於構建好的圖,通過訊息傳遞的方式沿著圖的邊傳播節點資訊。Michael Brostein 認為,正是這種以節點和邊為中心的思維方式,為該領域進一步發展帶來了主要的障礙。

WL 的類比能力有限。適當選擇像「求和」這樣的區域性聚合函式,可以使訊息傳遞等價於 WL 圖同構測試,使圖神經網路能夠根據資訊在圖上的傳播方式發現某些圖結構。通過這種與圖論的重要聯絡,研究人員提出了多種分析 GNN 表達能力的理論結果,決定了圖上的某些函式是否可以通過訊息傳遞來計算。這種型別的分析結果通常不能說明表徵的效率(即需要多少層來計算某個函式),不能說明 GNN 的泛化能力。

 

 

 圖注:WL 測試就好比在沒有地圖的情況下走進迷宮,試圖理解迷宮的結構。位置編碼提供了迷宮的地圖,重連提供了一個越過「牆壁」的梯子。

即使是對於三角形這種簡單的圖結構,有時 WL 演算法也無法將檢測出來,這讓試圖將資訊傳遞神經網路用於分子圖的從業者非常失望。例如,在有機化學中,像環這樣的結構非常普遍,對分子的性質十分重要(例如,萘等芳香環之所以被稱為芳香環,主要存在於具有強烈氣味的化合物中)。

 

 

 圖注:十氫化萘(左)和二環戊基(右)有不同的結構,但無法通過 WL 測試區分。

近年來,已經提出了一些構建表達能力更強的 GNN 模型的方法。例如,WL 層次結構中的高維同構測試(以更高的計算和記憶體複雜度以及缺乏局域性為代價),將 WL 測試應用於子圖集合;位置或結構編碼,為圖中的節點著色,以這種方式幫助打破迷惑 WL 演算法的規律。位置編碼目前在 Transformer 模型中是最常見的技術,在 GNN 中也廣為使用。雖然存在多種位置編碼方法,但具體的選擇取決於目標應用,要求使用者有一定經驗。

 

 

 圖注:位置編碼示例:隨機特徵、拉普拉斯特徵向量(類似於 Transformer 中的正弦曲線)、結構特徵(三角形和矩形的個數)。

「圖重連」突破了 GNN 的理論基礎。GNN 和卷積神經網路(CNN)之間的一個重要且微妙的區別是:圖既是輸入的一部分,也是計算結構的一部分。傳統的 GNN 使用輸入的圖結構來傳播資訊,通過這種方式獲得既反映圖結構又反映圖上特徵的表示。由於某些結構特徵(「瓶頸」),一些圖在資訊傳播方面的效能較差,導致來自太多節點的資訊被壓縮到一個節點彪悍尊能中,即「過壓縮」。

現代 GNN 實現通過將輸入圖與計算圖解耦(或為計算目的優化輸入圖)處理這種現象,這種技術稱為「圖重連」。重連可以採取以下形式:鄰域取樣、虛擬節點、連通性擴散或演化,或節點和邊的 Dropout 機制。Transformer 和像 GAT 這類基於注意力的 GNN,通過為每條邊分配不同的權重,有效學習新的圖,可以理解為一種「軟性」的重接。最後,潛圖學習方法可以歸入這一類,可以構建針對特定任務的圖,在每一層中更新(初始狀態下有位置編碼、初始圖,或有時根本沒有圖)。很少有現代 GNN 模型在原始輸入圖上傳播資訊。

 

 

 圖注:GNN 中使用的各種圖重連技術——原始圖、鄰域取樣(例如,GraphSAGE)、注意力機制(例如,GAT)、連通性演化(例如,DIGL)。

WL 測試根據資訊在圖上的傳播方式來描述圖。重連突破了這種理論上的聯絡,但又陷入機器學習領域常見的問題中:學術界從理論上分析的模型與實踐中使用的模型不相同。

有時,圖的「幾何特性」不足。GNN 是幾何深度學習巨集偉藍圖中的一個例項。幾何深度學習是一個「群論框架」,可以根據資料底層的域的對稱性設計深度學習架構。由於圖沒有規範的節點順序,在圖的場景下,這種對稱性指的是節點排列。由於這種結構特性,區域性作用圖上的 MPNN 必須依賴於滿足排列不變性的特徵聚合函式,圖上沒有「方向」的概念,資訊的傳播是各向同性的。這種情況與在連續域、網格上的學習有著顯著的不同,是 GNN 的缺點之一,人們認為各向同性濾波器的作用有限。

 

 

 圖注:網格是具有區域性歐氏結構的離散流形。根據旋轉來定義鄰居節點,從而形成了「方向」的概念。圖的結構較少,根據排列定義鄰居節點。

有時,圖的「幾何特性」過多。距離與方向的差異在某種程度上也與構建節點嵌入時遇到的問題有關。在某些空間中節點表徵之間的距離,捕獲圖的聯通性。大致可以將嵌入空間中接近的節點通過圖中的一條邊連線起來。在推薦系統中,圖嵌入被用來在節點所代表的實體之間建立關聯(邊)。

圖嵌入的質量及表達圖結構的能力,在很大程度上取決於嵌入空間的幾何性質及其與圖的幾何性質的相容性。歐氏空間在表示學習中有重要的地位,目前最簡單、最方便的表徵空間,但對於許多自然中的圖,歐氏空間並不理想,原因之一是:歐幾里德度規球的體積隨半徑以多項式形式增長,隨維數指數增長,現實世界中許多圖的體積增長是指數的。因此,嵌入變得「過於擁擠」,被迫使用高維空間,導致較高的計算複雜度和空間複雜度。

最近流行的一種替代方法是使用負曲率(雙曲)空間,具有與圖更相容的指數體積增長。雙曲幾何的使用通常會使嵌入維數更低,使節點表示更加緊湊。圖往往是異質的(例如,有些部分看起來像樹,其它部分看起來像團,具有非常不同的體積增長特性),雙曲嵌入空間是同質的(每個點都有相同的幾何性質)。

即使嵌入空間具有非歐幾何性質,但通常不可能在該空間中準確地表示通用的圖的度量結構。因此,圖的嵌入不可避免地是近似的。然而,更糟糕的是,由於嵌入是在考慮連結預測標準的情況下構建的,高階結構(三角形、矩形等)的畸變可能會大到無法控制的。在社會和生物網路等應用場景下,這樣的結構扮演著重要的角色,可以捕獲更復雜的非成對的相互作用和模體。

 

 

 圖注:圖的模體是一種高階的結構。在對許多生物現象建模的圖中可以觀察到這種結構。

當資料的結構與底層圖的結構不相容時,GNN 的效能就會受到挑戰。許多圖學習資料集和對比基準都預設假設資料是同質性的(即相鄰節點的特徵或標籤是相似的,或者說是平滑的)。在這種情況下,即使是對圖進行簡單的低通濾波(例如,取鄰接平均值)也能起到很好的效果。早期的對比基準測試(例如,Cora),都是在具有高度同質性的圖上進行的,這使得 GNN 的評估過於容易。

 

 

 圖注:同構和異構資料集。在同構圖中,節點特徵或標籤的結構與圖是相容的(即節點與其鄰居節點相似)。

然而,在處理親異(heterophilic)資料時,許多模型顯示出令人失望的結果,在這種情況下,必須使用更精細的聚合方式。不妨考慮兩種典型的情況:(1)模型完全避免使用鄰居資訊(GNN 退化為節點級的多層感知機)(2)出現「過平滑」現象,即節點的表徵在經過 GNN 的各層後變得更加平滑,最終「坍塌」為一個點。親同資料集中存在「過平滑」現象,對於某些 MPNN 是一個更為本質的缺陷,使深度圖學習模型難以實現。

通常很難理解 GNN 學到了什麼,GNN 往往是難以解釋的黑盒模型。雖然可解釋性的定義在很大程度上還較為模糊,但在大多數情況下,確實並不真正理解 GNN 學習了什麼。最近的一些工作試圖通過以緊湊的子圖結構和在 GNN 預測中起關鍵作用的節點特徵子集的形式,解釋基於 GNN 的模型,緩解可解釋性的缺陷。通過潛圖學習架構學習的圖也可以看作提供「解釋」的一種形式。

約束通用的訊息傳遞函式有助於排除不合理的輸出,確保 GNN 學到的東西有意義,在特定領域的應用程式中可以更好地理解 GNN。這樣做可以為訊息傳遞賦予額外的「內部」資料對稱性,更好地理解底層的問題。例如,E(3)-等變訊息傳遞能夠正確地處理分子圖中的原子座標,最近對 AlphaFold 和 RosettaFold 等蛋白質結構預測架構的成功作出了貢獻。

在 Miles Cranmer 和 Kyle Cranmer 合著的論文“Discovering symbolic models from deep learning with inductive biases”中,作者用符號公式取代了多體動力系統上學習的訊息傳遞函式,從而可以「學習物理方程」。還有的研究者試圖將 GNN 與因果推理聯絡起來,試圖構建一個圖來解釋不同變數之間的因果關係。總的來說,這仍然是一個處於起步階段的研究方向。

 

 

 圖注:不同的「可解釋」GNN 模型——圖直譯器、潛圖學習、等變訊息傳遞。

大多數 GNN 的實現是與硬體無關的。目前大多數 GNN 依賴於 GPU 實現,預設資料可以裝入記憶體。然而,在處理大規模圖(如生物網路和社交網路)時,這往往是一種一廂情願的想法。在這種情況下,理解底層硬體的侷限性(如不同的頻寬和記憶體層次結構的延遲),方便地使用硬體是至關重要的。大體來說,在相同實體記憶體中的兩個節點和不同晶片上的兩個節點之間,訊息傳遞的成本可能存在一個數量級的差異。「使 GNN 對現有硬體友好」是一個重要而又經常被忽視的問題。考慮到設計新晶片所需的時間和精力,以及機器學習的發展速度,開發以圖為中心的新型硬體是一個更大的挑戰。

3圖學習新藍圖——「持續」模型

「持續」學習模型是一個取代離散 GNN 的新興的、希望的方案。「受到物理系統啟發的持續學習」從微分幾何、代數拓撲和微分方程等領域出發,開闢了一系列新的工具,迄今為止在圖機器學習中還尚未被探索。

將 GNN 重新想象為連續的物理過程。與在圖上傳遞多層訊息不同,可以考慮在連續的時間維度上發生在某個域(可以是流形等連續的域,並將其轉化為離散圖)上的物理過程。該過程在空間和時間上的某個點的狀態取代了一層 GNN 生成的圖中某個節點的潛在特徵。該過程由一組引數(表示底層物理系統的屬性)控制,這些引數取代了訊息傳遞層的可學習權值。

可以根據經典系統和量子系統構造出大量不同的物理過程。研究者們在一系列論文中證明,許多現有的 GNN 可能與擴散過程有關,這可能最自然的傳播資訊方式。也可能存在一些更奇特的方式(如耦合振盪系統),可能具備某些優勢。

 

 

 圖注:圖耦合振盪系統的動力學。

連續系統在時間和空間上可以是離散的。空間離散化指的是:以圖的形式在連續域上連線附近的點,可以隨時間和空間變化。這種學習正規化與傳統的 WL 測試截然不同,後者嚴格地受底層輸入圖假設的約束。更重要的是,空間離散化思想啟發了一系列新的工具的誕生。至少從原則上說,可以解決一些重要的問題,這些問題是現有的圖論技術所無法解決的。

 

 

 圖注:2D 拉普拉斯運算元的不同離散化結果。

學習是一個最優控制問題。在給定的時間內,過程的所有可能狀態的空間可以被看作是一個可以表示的函式的「假設類」。這種學習方式可以看作一個最優控制問題,即是否可以控制過程(通過在引數空間中選擇一條軌跡)使其達到某種理想狀態。可以將表示能力定義為:是否可以通過在引數空間中選擇適當的軌跡來控制過程,實現某種給定的功能(可達性);效率與達到某一狀態所需的時間有關;泛化性與該過程的穩定性有關。

 

 

 圖注:將學習作為控制問題。通過飛機來比喻物理系統,xyz 座標(系統狀態)是通過操縱推理、副翼、和方向舵(引數空間)控制的。

可以由離散微分方程推匯出 GNN。物理系統的行為通常可由微分方程控制,其解產生系統的狀態。在某些情況下,這樣的解可以是閉式解。但在更普遍的情況下,必須依靠基於適當離散化的數值解。經過一個多世紀的研究,數值分析領域出現了各種各樣的迭代求解器,為圖上的深度學習提供了可能的全新架構。

GNN 中的注意力機制可以解釋為具有可學習擴散係數的離散擴散偏微分方程,使用顯式數值方法求解。此時,求解器的每一步迭代對應於 GNN 的一個層。目前還沒有 GNN 架構能夠直接類比於更復雜的求解器(例如,使用自適應步長或多步方案),該方向的研究可能催生出新的架構。另一方面,隱式的方案需要在每次迭代時求解一個線性系統,可以解釋為「多跳」濾波器。此外,數值方法具有穩定性和收斂性的保證,為能夠工作提供了條件,也為失效情況提供瞭解釋。

數值求解器應該對硬體友好。迭代求解器比數字計算機更古老,從數字計算機誕生之日起,就必須知道擁有底層硬體,有效地利用。科學計算中的大規模問題通常必須在計算機叢集上解決,這些問題是至關重要的。

在圖上進行「持續」深度學習的方式,使以與模擬硬體相容的方式對底層微分方程進行離散化。這裡可能用到超級計算研究社群的大量成果(如域分解技術)。圖重連和自適應迭代求解器考慮了記憶體的層次結構,例如:在不同物理位置的節點上執行很少的資訊傳遞步驟,在相同實體記憶體中的節點上執行更頻繁的步驟。

將演化方程解釋為與物理系統相關的能量函式的梯度流,有助於理解學習模型。許多物理系統都有一個相關的能量泛函(有時也包含某些對稱或守恆定律),其中控制系統動力學的微分方程是一個最小化的梯度流。例如,擴散方程使狄利克雷能量最小化,非歐版本(Beltrami 流)使 Polyakov 泛函最小化,直觀地理解了學習模型。利用最小作用原理,某些能量泛函可以匯出雙曲方程(如波動方程)。這些方程的解是波動的(振盪的),與典型的 GNN 動力學有很大的不同。

分析這種流的極限情況提供了對模型表現的深刻理解,很難通過其它方法獲得的。例如,在論文“Neural Sheaf Diffusion: A Topological Perspective on Heterophily and Oversmoothing in GNNs”中,Michael 等人證明了傳統的 GNN 必然會導致過平滑,只有在同質性假設下才具有分離的能力;在使用圖上的額外結構可以獲得更好的分離能力。在論文“Graph-Coupled Oscillator Networks”中,Michael 等人證明了振動系統在極限下可避免過平滑。這些結果可以解釋為什麼在某些 GNN 架構中會產生某些不良現象,以及如何設計架構來避免。此外,將流的極限情況與分離聯絡起來,揭示了模型表達能力的界限。

可以在圖中使用更豐富的結構。如前文所述,有時圖的幾何性質可能「不足」(無法捕獲更復雜的現象,如非成對關係),也可能「過剩」(即難以在同質空間中表示)。可以通過使用額外的結構使圖更豐富,處理圖幾何性質不足的問題。例如,分子包含環,化學家認為環是單一的實體,不是原子和鍵(節點和邊)的集合。

Michael 等人的研究指出,圖可以被「提升」為「簡單元胞複合體」(simplicial- and cellular complexes)的高維拓撲結構。可以設計一個更復雜的訊息傳遞機制,使資訊不僅可以像在 GNN 中那樣在節點之間傳播,還可以在環這樣的結構之間傳播。恰當地構造這類「提升」操作使這些模型比傳統的 WL 測試具有更強的表達能力。

 

 

 圖注:將圖「提升」為元胞複合體,元胞訊息傳遞。

在論文“Neural Sheaf Diffusion: A Topological Perspective on Heterophily and Oversmoothing in GNNs”中,Michael 等人證明了,通過給節點和邊分配向量空間和線性對映,可以給圖配備一種額外的幾何結構,即「元胞束」。傳統的 GNN 隱式地假設圖具有簡單的底層束結構,這反映在相關擴散方程的性質和圖拉普拉斯運算元的結構上。與傳統的 GNN 相比,使用複雜的「束」可以產生更豐富的擴散過程,有利於對其漸近行為。例如,在選擇出的恰當的束結構上的擴散方程,可以在極限的多個類中分離,即使在親異環境中也是如此。

從幾何的觀點,束結構類似於連線,這是微分幾何中描述流形上向量的平行傳輸的概念。可以把束的學習看作是一種取決於下游任務演化圖的幾何結構的方法。Michaedl 等人證明,通過限制束的結構群(例如,限制為特殊的正交群),可以使節點特徵向量只旋轉,這樣可以獲得一些有趣的發現。

 

 

 圖注:建立在圖上的元胞束由附加在每個節點上的向量空間和連線線性約束對映組成。可以認為是賦予圖幾何性質,約束對映與連線類似。

「離散曲率類比」是另一種圖幾何結構的例子,這是微分幾何領域用來描述流形區域性性質的標準方法。在論文“Understanding over-squashing and bottlenecks on graphs via curvature”中,Michael 等人證明了負圖 Ricci 曲率會對圖上的資訊流產生瓶頸,導致 GNN 中的過壓縮現象。離散 Ricci 曲率可以被應用於高階結構(三角形和矩形),這在許多應用中都很重要。這種結構對於傳統的圖嵌入來說有些「過剩」,因為圖是異構的(非常曲率)。對於通常用於嵌入的空間,即使是非歐空間,也是同構的(常曲率)。

在論文“Heterogeneous manifolds for curvature-aware graph embedding”中,Michael 等人展示了一種具有可控 Ricci 曲率的異構嵌入空間的構造,可以選擇與圖的曲率匹配的 Ricci 曲率,不僅可以更好地表示鄰域(距離)結構,而且可以更好地表示三角形和矩形等高階結構。這些空間被構造成同構、對旋轉對稱的流形的乘積,可以使用標準黎曼梯度下降方法進行有效優化。

 

 

 圖注:(左)空間形式(球體、平面和雙曲面)具有常的正的、零的和負的Ricci曲率,下方為與相應的離散的 Forman 曲率的圖的類比(團、網格和樹)。(中)積流形(圓柱可以被認為是圓和線的乘積)。(右)具有變曲率的異質流形及其圖的類比。

位置編碼可以看作是域的一部分。將圖看作連續流形的離散化,可以將節點位置座標和特徵座標視為同一空間的不同維度。在這種情況下,圖可以用來表示由這種嵌入引出的黎曼度規的離散類比,與嵌入相關的諧波能量是狄利克雷能量的非歐擴充套件,在弦論中稱為 Polyakov 泛函。這種能量的梯度流是一個擴散型方程,演化了位置座標和特徵座標。在節點的位置上構建圖是一種針對特定任務的圖重連的形式,會在擴散的迭代層中發生變化。

 

 

 圖注:通過帶有重連的 Beltrami 流對 Cora 圖的位置和特徵分量進行演化的結果。

域的演化可替代圖重連。作為一個預處理步驟,擴散方程可以應用於圖的連通性,旨在改善資訊流和避免過壓縮。Klicpera 等人提出了一種基於個性化 Page Rank 的演算法,這是一種圖擴散嵌入。在論文“Understanding over-squashing and bottlenecks on graphs via curvature”中,分析了這個過程,指出了在異構設定下的缺陷,提出了一個受 Ricci 流啟發的過程的圖重接的替代方案。這樣的重連減少了負曲率造成的圖瓶頸的影響。Ricci 流是流形的幾何演化方程,非常類似於用於黎曼度規的擴散方程,是微分幾何中類流行且強大的技術(包括著名的 Poincaré 猜想的證明)。更廣義地說,與其將圖重連作為預處理步驟,還不如考慮一個演化過程的耦合系統:一個演化特徵,另一個演領域。

 

 

 圖注:(上)具有負曲率的瓶頸的啞鈴形黎曼流形,經過基於曲率的度規演化,變得更圓,瓶頸更不明顯。(下)一個類似的基於曲率的圖重連過程,減少了瓶頸,使圖對訊息傳遞更友好。

4結語

新的理論框架能讓走多遠,是否能夠解決該領域目前尚未解決的問題,仍然是一個懸而未決的問題。

這些方法真的會在實踐中被使用嗎?對於實踐者來說,一個關鍵的問題是,這些方法是否會催生新的更好的架構,或者仍然是一個脫離實際應用的理論工具。Michael Brostein 相信,這個領域的研究將是實用的,通過拓撲和幾何工具獲得的理論成果將使對現有 GNN 架構做出更好的選擇。例如,如何約束訊息傳遞函式,以及何時使用這些特定的選擇。

是否已經超越了訊息傳遞的範疇?從廣義上講,數字計算機上的任何計算都是一種訊息傳遞形式。在嚴格意義上的 GNN 中,訊息傳遞是一個計算概念,通過將資訊從一個節點發送到另一個節點來實現,這是一個內在的離散過程。另一方面,所描述的物理模型以連續的方式在節點之間共享資訊(例如,在一個圖耦合振盪系統中,一個節點的動力學依賴於鄰居在每個時間點上的動力學)。在對描述該系統的微分方程進行離散化和數值求解時,所對應的迭代確實是通過訊息傳遞實現的。

可以假設使用這些物理系統的實際實現或其他計算正規化(例如,類比電子學或光子學)。在數學上,底層的微分方程的解有時可能以封閉形式給出:例如,各向同性擴散方程的解是一個高斯核卷積。在這種情況下,鄰居的影響被吸收到核的結構中,沒有發生實際的訊息傳遞。

 

 

 圖注:基於反向傳播的深度學習在真實物理系統中的應用。

參考原文連結:

https://geometricdeeplearning.com

https://towardsdatascience.com/graph-neural-networks-beyond-weisfeiler-lehman-and-vanilla-message-passing-bc8605fa59a

https://mp.weixin.qq.com/s/_bGQ0PFUYpa_DR12H6YJUw

https://www.jianshu.com/p/615b2649f49b