CIKM 18 | 螞蟻金服論文:基於異構圖神經網路的惡意賬戶識別方法
小螞蟻說:
ACM CIKM 2018 全稱是 The 27th ACM International Conference on Information and Knowledge Management,會議於2018年10月22日-26日在義大利都靈省舉行。
CIMK 是國際計算機學會(ACM)舉辦的資訊檢索、知識管理和資料庫領域的重要學術會議。本次大會目的在於明確未來知識與資訊系統發展將面臨的挑戰和問題,並通過徵集和評估應用性和理論性強的高質量研究成果以確定未來的研究方向。
本篇文章分享了螞蟻金服在CIKM 2018上的一篇論文《Heterogeneous Graph Neural Networks for Malicious Account Detection》,作者包括劉子奇、陳超超、楊新星、周俊、李小龍、宋樂。
線上賬戶伴隨著(移動)網際網路的誕生而產生,在金融服務領域,這種通過批量、低成本註冊的惡意賬戶的存在是十分危險的。本文介紹了一種新的基於異構圖的、面向惡意賬戶識別的圖神經網路方法GEM ,這也是這也是世界上已知的第一個面向惡意賬戶檢測的圖神經網路方法。
1.概述
本文的主要目的是介紹一種新的基於異構圖的、面向惡意賬戶識別的圖神經網路方法(GEM, Graph Embeddings for Malicious accounts)[1]。該方法是支付寶為保障體系內賬戶安全,降低惡意賬戶帶來的資損,保障支付體系健康,在人工智慧領域所做的努力和嘗試。這也是世界上已知的第一個面向惡意賬戶檢測的圖神經網路方法
下面,我們將為大家講解如下內容:
1. 惡意賬戶是什麼?具有什麼特點?
2. 為什麼圖神經網路方法能夠高效識別惡意賬戶?
3. 我們的 GEM 方法如何工作?
感興趣的朋友請直接戳論文檢視細節:https://dl.acm.org/citation.cfm?id=3272010
2.惡意賬戶是什麼?具有怎樣的特點?
2.1什麼是惡意賬戶
隨著(移動)網際網路誕生,催生了多種形式的線上服務,線上賬戶隨之產生。比如:Gmail 提供的郵件服務,微博/Twitter 提供的短訊息分享服務,支付寶提供的支付服務等。通過註冊大量 Gmail 郵箱賬戶,惡意使用者就可能迅速、大量地擴散垃圾廣告等資訊。微博賬戶等也可能催生殭屍賬戶達到某種非法營銷、傳播目的。在金融服務領域,這種惡意賬戶的存在就更加危險,比如註冊大量新賬戶達到薅羊毛、洗錢、欺詐等目的。
用一句話總結:惡意賬戶具有強烈獲取利益傾向和團伙性質,往往是通過批量、低成本註冊的賬戶。
2.2惡意賬戶的特點
本文我們對黑產賬戶資料進行分析,並總結如下特點:
1.裝置聚集性:見下圖所示。兩張圖分別展示了使用者(縱軸)過去是否在裝置(橫軸)有過登入行為。藍色點代表該使用者過去有在某裝置上登入過。其中,左圖顯示的是正常賬戶特徵,右圖顯示的是惡意賬戶特徵。從圖中可以看出,左圖 pattern 較為均勻(regular),即便不同型別的裝置(媒介)上,其和賬戶連線的 pattern 可能密度不太一樣。右圖則完全不同,我們可以在黑產賬戶上看到極為有規律和稠密的 pattern。這說明,黑產賬戶更傾向於在裝置(媒介)的聯通上有著高聚集性。
2.時間聚集性:見下圖所示。兩張圖分別展示了賬戶(縱軸)在時間(橫軸)上的行為序列。其中一個藍點代表該使用者在某時間點上有登入行為。左圖仍然為正常賬戶,而右圖則是黑產賬戶。因為我們取的都是新註冊賬戶,所以在註冊時間點前無行為。從左圖可以看出,正常賬戶在註冊之後,每天會有均勻的登入 pattern,右圖中的黑產賬戶則只在某個時間段內集中達成某種行為,這種 pattern 我們稱之為時間聚集性。
小結:這兩種特徵是黑產賬戶所固有形成的。即,這些黑產受利益所驅動而無法繞開這些模式(只要能準確捕獲黑產賬戶之間共享的裝置資訊,這裡的裝置不限於某一個手機、某一個IP地址,可以認為是一種媒介)。我們針對這些資料特點設計了基於圖的神經網路演算法識別黑產賬戶。
3.為什麼圖神經網路演算法能識別黑產
一個直觀的方法是聯通子圖方法。我們先構建賬戶-裝置二部圖,由於裝置聚集性,我們可以計算每個聯通子圖的節點數目,每個賬戶的危害程度取決於該節點所在聯通子圖的節點數目。該函式本質上可以用圖神經網路抽象。有興趣的讀者請見我們公眾號另一篇文章:《論文 | 螞蟻金服亮相資料探勘頂會KDD 2018,這些你不可錯過!》。
該方法可以準確識別那些裝置聚集度特別高的黑產賬戶。但是對於裝置聚集程度一般或較低的賬戶,很難做出準確區分。
4.GEM 方法如何工作
基於我們前面對裝置聚集性和時間聚集性的分析,我們將上面的用於刻畫聯通子圖的圖神經網路方法進行擴充套件:
第一、我們構建異構圖,包括賬戶類節點,以及多種型別的裝置資訊,如:電話、MAC、IMSI 以及其他 ID。
第二、我們為每個賬戶加入時間上的行為特徵 X ∈ RN,P。其中每行 Xi 表示節點(賬戶或裝置)在時間上的行為特徵。我們希望構建的神經網路模型可以學習到通過裝置聚集在一起的賬戶在行為特徵上的模式,從而更準確的做出判別。
我們的演算法如下:
5.結果
我們使用了連續 4 周的資料,比較了 GEM 和其他有競爭力的方法在這些資料上的 AUC 和 F1-score 上的表現。
下面,我們比較了這些方法在 Precision-Recall 曲線上的表現。從圖中可以看出,GEM 可以在召回的頭部到尾部,都保持相對一致的高準確度。這使得我們的方法可以在避免打擾正常賬戶的同時,有效打擊黑產賬戶。
最後,我們分析了我們的演算法自動識別的異構圖中不同型別賬戶的有效性。這些分析可以幫助我們更加有效理解哪類裝置在當前有高概率會被利用,以及隨時間變化,黑產策略的調整等。
參考文獻
[1] Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song. Heterogeneous Graph Neural Networks for Malicious Account Detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Turin 2108.
— END —