1. 程式人生 > 其它 >論文閱讀 Continuous-Time Dynamic Network Embeddings

論文閱讀 Continuous-Time Dynamic Network Embeddings

1 Continuous-Time Dynamic Network Embeddings

Abstract

​ 描述一種將時間資訊納入網路嵌入的通用框架,該框架提出了從CTDG中學習時間相關嵌入

Conclusion

​ 描述了一個將時間資訊納入網路嵌入方法的通用框架。該框架為推廣現有的基於隨機遊走的嵌入方法提供了基礎,用於從連續時間動態網路學習動態(時間相關)網路嵌入

Figure and table

圖1:這幅圖的邊標籤為時間,注意v4 v1 v2不是一個合法的時序遊走,因為v1v2的邊時序小於v1v4的邊

圖2,可以看到大部分的時序隨機遊走長度都集中在右側

表1 SOTA

Introduction

​ 在這個論文裡 提出了一種通用框架。這個框架可以非常容易的和現有的節點嵌入方式(基於隨機遊走)結合,給這些節點嵌入加入時間序列資訊。該框架是將時間依賴性納入現有節點嵌入和基於隨機遊動的深度圖模型的基礎(就是基於時間序列的隨機遊走),並且由於保證時序是非遞減的 可以減少虛假事件或者不可能的時間來減少噪聲

​ 靜態圖和動態圖的區別就在於時間的粒度選擇上 動態圖儘量選擇最小粒度的時間(如秒或者毫秒)來擬合連續的情況,但是如果對用snapshot的方法來看 時間粒度過小將會造成多個snapshot的計算和儲存開銷,該方法利用streaming graph的方式學習,可以用於要求實時效能的應用
​ 所提出的方法在所有方法和圖形中的平均增益為11.9%,結果表明,建模圖中的時間依賴關係對於學習適當且有意義的網路表示非常重要。此外,任何使用隨機遊動的現有嵌入方法或深度圖模型都可以受益於所提出的框架

​ 作者說明了以往的隨機遊走的問題,例如是郵件傳送接受構成的圖,假設我們有兩封電子郵件\(ei=(v1,v2)\)\(v1\)\(v2\)\(ej=(v2,v3)\)\(v2\)\(v3\);讓\(T(v1,v2)\)為電子郵件\(ei=(v1,v2)\)傳送的時間,讓\(T(v2,v3)\)為電子郵件\(ej=(v2,v3)\)傳送的時間。如果\(T(v1,v2)< T(v2,v3)\),那在第二封郵件中就可能反應了第一封郵件中的某些資訊。反之,第二封郵件中就不會有第一封郵件中的資訊。同樣是v1到v2節點的隨機遊走,但是包含的資訊不一樣

​ 這只是一個簡單的例子,說明了建模實際事件序列(電子郵件通訊)的重要性。忽略時間的嵌入方法容易出現許多問題,例如學習不適當的節點嵌入,這些節點嵌入不能準確捕捉網路中的動態,例如真實世界中的互動或節點之間的資訊流

​ 該方法具有以下三個特性

​ 通用和統一框架:我們提出了一個通用框架,用於在節點嵌入和利用隨機遊動的深度圖模型中合併時間依賴關係。

連續時間動態網路:學習連續時間動態網路的時間相關網路表示。該方法避免了從圖的連續時間表示建立離散快照圖序列時出現的問題和資訊丟失。

有效:sota

Method

2.1 Temporal Model

​ 這裡對temporal model裡的一些概念進行定義

2.2 Initial Temporal Edge Selection

​ 這裡說了自己和那些普通隨機遊走的區別:

​ 普通隨機遊走是從某個點開始走固定長度的距離,但是在時序圖中,由於時間邊的存在,所以從分佈中取樣時不是隨機選擇一點v開始,而是

​ 1.對初始時間進行取樣,再去找離取樣時間最近的邊

​ 2.或者直接對邊和邊對應的時間進行取樣

​ 這是所提出的使用時間隨機遊動的動態網路嵌入框架與在靜態圖上使用隨機遊動的現有方法之間的一個重要而根本的區別。

​ 同時,也可以選擇隨機取樣出一個邊或者使用任意的加權分佈進行取樣,前面一種就是隨機取樣,而後面這個是我們可能希望從距離當前時間點更近的邊緣開始更多的時間行走,因為遙遠過去的事件/關係可能不太具有預測性或指示系統現在的狀態

作者列了兩個關於取樣的三個公式

2.2.1:無偏

\[Pr(e)=1/|E_t| \]

2.2.2:偏置

指數分佈

\[Pr(e)=\frac{exp[\tau(e)-t_{min}]}{\sum_{e^ \prime \in E_t}exp[\tau(e)-t_{min}]} \]

該分佈非常有利於時間較晚出現的邊

線性分佈

\[Pr(e) = \frac{\eta(e)}{\sum_{e^ \prime \in E_t}\eta(e^\prime)} \]

​ 當兩個邊之間的相隔時間太長時,可以使用這個分佈,先將\(e\)升序排序

\(\eta(e)\)返回\(e\)排序後的下標,對於最早時間的\(e\)\(\eta(e)=1\)

2.3 Temporal Random Walk

​ 這段提到如何進行遊走

​ 首先定義鄰居的概念:

\[Γ_t (v) = \{ (w, t′) | e = (v, w, t′)∈ E_T∧ \tau(e) > t \} \]

​ 對於\(t\)時刻下的點\(v\),該點鄰居和在\(t^\prime\)時刻和\(v\)有時序邊,且\(t^\prime>t\)

​ 接著如何選擇下一次的遊走節點,注意到,從\(v\)到點\(u\)可能存在多個時序邊,我們當然可以選擇滿足分佈\(Γ_t (v)\)的邊,但是考慮到可以更加直觀的思考時間之間的連續性,例如,兩個人可能會在一段時間內交換多封電子郵件,我們可能希望將抽樣策略偏向於對連續邊顯示較小“中間”時間的行走。也就是說,對於隨機行走中的每一對連續邊\((u、v、t)\)\((v、w、t+k)\),我們希望k較小。對於動態社交網路上的時間連結預測,限制“中間”時間時間讓我們可以嘗試不讓不同時間段的朋友聚在一起的遊走。例如,如果k很小,我們可能會對隨機遊動序列\((v1,v2,t)\)\((v2,v3,t+k)\)進行取樣,這是有意義的,因為v1和v3更可能相互瞭解,因為v2最近與它們都進行了互動。另一方面,如果k很大,我們不太可能對序列進行取樣。這有助於區分在非常不同的時間段與之互動的人,因為他們不太可能相互瞭解。

然後介紹三種分佈進行取樣

和一個Temporal context windows的概念

在對一組時序遊走進行取樣時,我們通常將\(\beta\)設定為\(N = |V |\)

*2.4 Learning Time-preserving Embeddings

​ 將上述問題轉化為優化問題

\(f\)是對映函式 將節點對映到\(embedding\)

\(W_T\)是一個任意時間的上下文視窗

​ 這個式子的含義是,希望最大化\(log(Pr(A|B))\)這個函式,首先條件概率\(0<=Pr(A|B)<=1\),所以\(log(Pr(A|B))\)<=0,最大化\(log(Pr(A|B))\)即最大化條件概率\(Pr(A|B)\),該條件該率的含義為:在包含節點\(v_i\)時,將\(v_i\)通過\(f\)對映成\(embedding\),以這次對映的\(embedding\)為條件,時序隨機遊走產生的序列\(W_T\)出現的概率是多少,其中優化目標是\(f\),(優化時,\(W_T\)\(v_i\)已經確定),所以希望函式\(f\)能夠學習到一種將當前時序隨機遊走序列中的點\(v_i\)所對應的對映方法

​ 如果假設時間上下文視窗的節點之間存在條件獨立性 則

​ 將上式的概率轉換為可以計算的形式,則為每次下一次連線的點剛好為時間遊走序列中順序的點 例如有序列:

\[A\to B\to C\to D \to B \]

​ 則每次為從圖中選取到ABCDB作為序列的概率

​ 後面作者補充,如果給定一個圖G,設S是G上所有可能的隨機遊動的空間,設ST是G上所有時間隨機遊動的空間。很容易看出時間隨機遊動的空間ST包含在S中,而ST只代表S中可能的隨機遊動的一小部分。現有的方法是從S中隨機取樣一個序列進行節點的\(embedding\),而這項工作的重點就是從ST中進行取樣序列。

​ 一般來說,現有方法從S隨機抽樣到時間序列的概率非常小。當考慮時間時,絕大多數抽樣中代表節點之間的事件序列都是無效的。例如,假設每個邊緣代表兩個人之間的互動/事件(例如,電子郵件、電話、空間接近),那麼時間隨機遊走可能代表一條資訊通過動態網路的可行路徑或傳染病傳播的時間有效路徑。

2.5 Hyperparameters

該模型只有一個需要調整的引數:指數基數(2.2和2.3中的指數分佈)

該演算法認為,可以接受任意長度的遊走長度,只是將其限制在範圍\([ω,L]\)\(ω\)\(L\)之間任意大小的行走可以更精確地表示節點行為.

2.6 Model variants

簡單說,前面2.2有三種分佈,2.3有三種分佈,在3中做了這幾種分佈的排列組合產生模型的效果

Algorithm

Experiment

為了生成一組用於連結預測的標記示例,首先按時間(升序)對每個圖中的邊進行排序,並使用前75%進行表示學習。剩下的25%被視為正連結,隨機抽取等量的負邊。

baseline如下

3.1 Experimental setup

介紹一下相關引數


資料集的各項引數

排列組合兩個分佈(2.2,2.3中的分佈)後 對不同資料集的效果

Summary

這篇文章是基於隨機遊走,核心思想就是提出了按照時序的隨機遊走,而不是任意遊走,希望每次遊走出來的路徑都是一條時序邊非遞減的路徑,並且提出了優化的目標函式演算法,區別於node2vec的優化函式,該方法希望可以在節點\(vi\)條件下,令其時序遊走序列出現的概率最大而不是令其近鄰頂點出現的概率最大。