知識圖譜 | 帶你瞭解反洗錢的複雜網路分析
【原創文章,轉載請註明出處,文章原地址】
知識 | 帶你瞭解反洗錢的複雜網路分析mp.weixin.qq.com
1.背景
反洗錢模型報告中主要從模型層面出發驗證了捕獲到圖資訊的模型比沒有捕獲到圖資訊的模型優異,考慮圖的動態網路變化也對建模有提升效果,且最終對最優模型提出了適應性解決方案。
但文中並未對交易網路進行復雜網路分析,從複雜網路角度分析問題可能會提供更多的可解釋性考量,複雜網路分析主要包括節點中心性分析、網路異常交易結構發現、資金流轉路徑發現。本報告將結合複雜網路分析對反洗錢交易中的非法交易進行可解釋性探索。
2.結論
本次任務主要是對反洗錢交易網路進行復雜網路分析,分別從節點中心性角度、N階聚合角度、網路結構發現角度、資金流轉路徑角度探索解決反洗錢任務的新方案。
通過分析得到結論如下:
- 一階聚合中心性指標在表現上優於節點中心性指標,證明獲取節點周圍一階關聯屬性資訊越多,對模型的增強效果越好。
- 融合了中心性聚合指標的模型RF(C+C1+C2+AF),對比原始特徵集合RF(AF)模型在精度上有1%的提升,召回率有5%的提升,F1有4%的提升。其中C為節點中心性特徵集,C1為一階聚合特徵集,C2為二階聚合特徵集,AF為原始特徵集。從模型角度中心性聚合指標有提升效果,從視覺化角度中心性特徵指標可以很快的找到關鍵節點。
- 網路交易結構發現可以找到網路中的非法交易模式,並做到可以案件的反查回溯。
- 資金流轉路徑可以發現更多的非法交易節點,也為非法交易模式提供了更多的可解釋性。
3.複雜網路分析
3.1.節點中心性分析
社會網路分析(SNA)演算法可以用於網路中各個節點的資訊度量,衡量節點在當前網路中的重要程度,最早是應用於社交網路的小世界演算法,用於確定社交網路中起到關鍵性的個人。知識圖譜反洗錢可以進行借鑑,可用於挖掘圖中的關鍵資訊,比如關鍵性賬戶、關鍵性個人和關鍵性交易。常用的社會網路分析演算法有PageRank、介數中心性、度中心性、特徵向量中心性和緊密性中心性等等。
3.1.1.中心性特徵表示
圖節點中心性分析特徵表示:
節點中心性分析是為了定位網路中存在的關鍵性交易,假設越是關鍵的交易越可能存在非法的交易行為,但在原始特徵集中並未加入節點中心性指標,且未從節點中心性角度對網路進行可解釋性分析。
3.1.2.中心性特徵分析
對當前反洗錢網路進行圖中心性演算法計算,將得到每個節點的中心性特徵向量,共計10個指標。分別為:
- Cen_pagerank:PageRank節點重要性;
- Degree:度;
- Outdegree:出度;
- Indegree:入度;
- Cen_bet:介數中心性;
- Cen_in_bet:入度介數中心性;
- Cen_out_bet:出度介數中心性;
- Cen_eigen:特徵向量中心性;
- Cen_col:緊密中心性;
- Cen_harmonic:加權緊密中心性;
計算各指標IV RANK,可以發現中心性特徵向量集對於交易節點分類模型來說是有較強的區分效果的。
表 1 圖中心性特徵向量IV RANK
圖 1 出度、度
圖1為出度、度指標IV圖,大部分的比特幣交易只存在1個出度交易或1個入度交易,即比特幣流入非法交易節點後,又流出到下一筆交易,非法交易節點只作為一箇中轉交易節點,承載流轉交易的作用。而非法交易往往存匿與此種簡單的交易模式當中,同時隨著度數的增加非法行為也銳減。
圖 2 調和中心性、緊密中心性
圖2為調和中心性和緊密中心性指標IV圖,可以發現它們具備很好的線性的趨勢,緊密中心性的含義是度量節點與同一連通子圖下網路中其他節點的距離,與緊密中心性的區別是調和中心性擴充套件到了非聯通子圖情況。它的含義是如果網路中的節點想要在網路中傳遞自己的資訊,可以用它來定位網路中關鍵點。所以可以推斷網路中越是關鍵的節點越不太可能存在非法交易,關鍵交易往往都是合法的。
3.1.3.中心性特徵網路分析
視覺化中心性特徵網路分析,從原始拓撲結構觀察網路中非法交易節點的交易模式。
圖 3 網路中PageRank最高的節點
上圖3中心節點為PageRank最高的節點,表明此節點為當前子圖中最重要的節點,可以發現它有很多的輸入和輸出,它和其他節點的連線最多可能是轉賬交易中最活躍的節點。這樣的節點應於重點關注。它可能存在較高的非法風險。
圖 4 網路中介數中心性最高的節點
上圖4中標記節點為網路中中介數最大的節點,它可能是很多個子交易網路的過度(橋接)節點,它在網路中起到連線其他交易節點的任務,可能會是一箇中介賬戶。
3.2.中心性指標聚合分析
中心性指標聚合可以理解為學習網路節點一階、二階屬性表示,一階屬性資訊即為一度關聯性指標,二階屬性資訊即為二度關聯性指標,這裡只探討中心節點的一階、二階內容表示。
3.2.1一階聚合分析
一階聚合分析包括一階出向(>)關係聚合、一階入向(<)關係聚合和一階無向(<>)關係聚合,共得到252個一階聚合特徵指標。
圖 5 一階聚合指標構造
下表2為252個變數的IV RANK(只截取了部分變數),可以發現一階聚合特徵在變數區分度上比節點中心性指標區分度好。Outdegree只能排在第19位。
表 2 一階聚合特徵指標IV RANK
圖 6 一階聚合調和中心性、調和中心性
上圖6為一階無向聚合調和中心性加和指標和調和中心性指標IV圖,可以發現一階無向調和中心性加和具有比調和中心性更好的線性趨勢,所以可以做交易模式推斷,網路中越是關鍵的交易節點,交易的非法性概率越低(非法交易總是要低調,不能肆無忌憚的洗錢),而其周圍一階關聯的交易節點非法性概率也低,可以理解為與合法的交易關聯的交易大概率是合法的。
圖 7 一階出向聚合Pagerank最小值、Pagerank
上圖7為一階出向聚合pagerank最小值指標和pagerank指標IV圖,可以發現他們存在相反的趨勢,pagerank值越大,證明交易在網路中的地位越高,但同時非法率越低,但關聯的一階出向交易中pagerank的最小值越大,反而非法率越高。
3.2.2二階聚合分析
二階聚合分析會比一階聚合更加複雜,需要考慮的情況比較多,下圖6包括一階出向(>)二階出向(>)關係聚合、一階入向(<)二階出向(>)關係聚合等等9種組合方式,共得到3*3*10*5=450個二階聚合特徵指標。
圖 8 二階中心性指標聚合
表3為二階聚合特徵IV RANK(只截取了部分特徵),可以發現二階聚合特徵中只有部分變數效果好於中心性變數,但都比一階聚合特徵效果稍差。證明對於一筆鏈路較長的交易而言,不會存在太高可能的非法性,大部分的洗錢交易實際上交易模式並不複雜。
表 3 二階聚合特徵IV RANK
圖 9 二階聚合調和中心性加和、一階聚合調和中心性加和
上圖9可以看出二階聚合調和中心加和雖然和一階聚合調和中心性加和具有相同的趨勢,但效果沒有後者好,對於交易反洗錢網路來說,對於每一筆交易,洗錢者都希望快速的完成任務,不希望中間週轉過多的賬戶。
表 4 中心性聚合指標模型
備註:其中C為節點中心性指標,C1為一階聚合指標,C2為二階聚合指標,AF為原始特徵集合,RF為隨機森林(n_estimators=50,max_features=100),圖中評價指標是對非法交易的評估。
上表4可以看到,融合了中心性聚合指標的模型RF(C+C1+C2+AF),對比原始特徵集合RF(AF)模型在精度上有1%的提升,召回率有5%的提升,F1有4%的提升。
3.3.網路交易結構發現
網路異常交易結構發現主要從網路中找到一些模式化的異常資金結構,舉例如下:
- 頻繁匯入/匯出
- 鏈式交易結構
- 集中轉入/轉出
- 分散轉入/集中轉出
- 環狀交易結構
- 其他異常交易結構
圖 10 非法鏈式交易結構
上圖10為網路中的非法鏈式交易結構,可發現節點間都為單向的轉出關係,其中可以定位此筆交易的起始節點和最終節點,從而追溯完整的交易鏈條。
圖 11 非法集中轉入到合法
上圖11位非法集中轉入交易,可以發現轉入交易中心為合法交易,這次交易顯然是有計劃的一次轉賬行為,其中還混雜著合法的轉賬交易,通過此次交易最終達到“洗白”的目的。
圖 12 非法集中轉出
上圖12為非法轉出交易,一個負責洗錢的交易中心節點,往往都是起到過度的作用,大部分轉入的錢都會通過各種手段轉出。所以通過計算交易節點的折損率(轉出金額/轉入金額),在配合集中轉出模式,可以識別出非法中介中心。
3.4.資金流轉路徑分析
主要用於研究交易網路中各交易節點之間的聯絡,利用最短路徑演算法尋找個體之間最直接的中介,交易之間的最短路徑可以直接定位到非法交易。基於目前的路徑分析演算法,提出了以下方案。
圖 13 資金流路徑分析
圖 14 最短路徑
上圖14可以根據兩個非法交易節點的最短路徑分析,可以很容易的找到路徑上的其他非法交易節點。
往往合法的交易遵從成本最低和時間最短原則,不太可能具有較長的資金路徑。所以根據路徑分析可以找到一些重要的交易路徑。
作者簡介:大飛
演算法工程師、知識搬運工、乾貨拾荒機
原創不易,如轉載請註明出處,學習是一生的事業。
PS:投稿請新增微信
wuyuanzahuopu(五元雜貨鋪)