線上社交網路中異常帳號檢測方法研究
作者 張玉清 呂少卿 範 丹
一.引言
線上社交網路已經成為人們生活、工作、交流的重要平臺.
異常帳號 (虛假帳號和被盜用的帳號),嚴重危害到線上社交網路的信譽評價體系以及使用者的信任關係.
異常帳號檢測主要涉及3方面的內容:
(1)異常帳號的表現.帳號具有形態各異的表現,並且帳號的表現是一個動態過程,在不同的階段具有不同的行為特徵;
(2)檢測方案的設計.選擇合適的特徵和演算法來設計既滿足準確率又滿足效率的檢測方案;
(3)檢測方案的驗證.設計的檢測方案只有採用真實資料驗證後才能夠證明有效.
本文結構
第2節介紹線上社交網路中異常帳號的表現形式以及異常帳號檢測所面臨的挑戰;
第3節分類分析探討異常帳號檢測方法的關鍵技術和研究現狀並總結在異常帳號檢測實驗中資料獲取、資料標識和結果驗證的主要方法;
第4節展望未來的發展趨勢;
第5節為總結.
二.社交網路中異常帳號及挑戰
2.1 異常帳號分類
根據異常帳號的不同表現形式,我們將線上社交網路中異常帳號的狀態變化分為3個階段
(1)建立階段.攻擊者通過自動化工具利用虛假個人資訊建立大量虛假帳號.
(2)發展階段.社交網路帳號之間需要建立聯絡才能夠傳播訊息,攻擊者為了使惡意訊息傳播更廣泛需要與其他正常帳號建立聯絡;同時攻擊者為了快速增加異常帳號的可信程度,會與其他異常帳號建立聯絡。
(3)應用階段.當異常帳號與其他正常帳號及異常帳號之間建立一定聯絡後,攻擊者就會通過這些異常帳號執行各種惡意行為,如釋出廣告、釣魚、 色情訊息等,或通過這些帳號來惡意增加其他帳號的信譽,如批量關注、惡意點贊等。有些攻擊者還會通過盜用正常使用者的帳號來執行這些惡意行為。
根據3個不同階段以及檢測時的不 同側重將異常帳號分為以下5類
(1)殭屍帳號( Social Bot).即由攻擊者通過自動化工具建立的虛假帳號,能夠模擬正常使用者的操作如釋出訊息、新增好友等。殭屍帳號是攻擊者建立的異常帳號在建立階段的表現,主要側重於自動化的建立過程,而不去考慮這些帳號被建立的目的,針對殭屍帳號的檢測也主要利用帳號建立時的特徵,如帳號暱稱的命名規則等。
(2) Sybil 帳號. 社交網路中描述在網路結構中攻擊者所建立的虛假帳號。Sybil 帳號相當於異常帳號在發展階段的表現,針對 sybil 帳號的檢測主要通過圖結構方面的異常。
(3)Spam 帳號.Spam 帳號是攻擊者建立的虛假帳號在應用階段的統稱,即這些帳號主要用來發 布廣告、釣魚、色情等資訊,或用來惡意改變社交網路中的信譽,如惡意互粉、新增好友、點贊等行為.針 對Spam 帳號的檢測主要側重於惡意行為和惡意內容的特徵。
(4) Compromised 帳號.即被劫持帳號.這些帳號原本是正常帳號,但被攻擊者劫持來執行惡意行為.正常帳號擁有大量的正常使用者好友,且具有正常的行為特徵,所以攻擊者往往通過各種方法盜取正常帳號進行惡意行為.由於Compromised帳號是由正常使用者建立,沒有帳號建立以及發展階段的特徵,因此針對Compromised帳號的檢測主要利用帳號行為的突變來進行.
( 5) SpamCampaign.即攻擊者建立的大量虛假帳號以及盜用的 Compromised帳號在集中時間段來傳播惡意資訊或執行其他惡意行為,稱其為 SpamCampaign.針對SpamCampaign的檢測主要通過這些帳號在同一時間段內的群體行為,如同時釋出相同訊息或者同時點贊某個頁面等
2.2 異常帳號檢測主要挑戰
(1)異常帳號的多種表現形式
(2)異常帳號特徵的動態變化
(3)社交網路巨大的使用者資料
(4)網路空間的複雜性
將一般異常檢測或圖中異常檢測的研究成果直接應用到線上社交網路中異常帳號檢測無法取得令人滿意的效果
三 社交網路中異常帳號檢測方法
基於行為特徵和基於內容的檢測方案將異常帳號檢測看為一個分類問題,即分別利用帳號的行為特徵和帳號釋出的內容來區分正常帳號和異常帳號.
基於圖的檢測方案是利用正常帳號和異常帳號在所形成的圖中具有不同的結構模式或連線方式,將異常帳號檢測問題轉化為圖中異常檢測問題,再利用圖挖掘的相關演算法來區分正常帳號和異常帳號
無監督學習
3.1 基於行為特徵的檢測方案
利用異常帳號與正常帳號在行為特徵方面的不同來檢測異常帳號.
基本流程 : 首先在社交網路中獲取資料訓練集,然後從資料中抽取相應的行為特徵,再利用分類演算法對這些特徵進行訓練形成分類器,最後利用測試樣本集對分類器進行測試並判斷分類結果.
3.2 基於內容的檢測方案
檢測的重點放在判斷使用者釋出的訊息是否為惡意訊息.基於內容的檢測方案能夠在使用者釋出訊息時即可判斷該訊息是否為惡意訊息, 與基於行為特徵的檢測方案相比更加及時
根據不同的訊息內容利用物件,將基於內容的檢測方案分為
利用單個帳號的內容特徵
利用群體帳號的內容特徵
3.3 基於圖的檢測方案
基於圖的檢測方案關鍵是構造一個圖,在圖中異常帳號與正常帳號具有不同的結構或者連線方式,然後利用圖挖掘的相關演算法找到圖中具體的異常結構或者異常節點。
社交網路中的圖結構,顯性:好友關係圖, 隱性圖結構:訪問關係、分享關係、URL 共享關係。
(1)好友關係圖
(2)其他關係圖
3.4 無監督學習的檢測方案
有監督學習的方法需要花費大量的時間來標記異常帳號,而且標記的樣本數量與質量對於檢測結果有較大的影響.基於圖的檢測方案儘管是無監督學習的,但是需要構建圖結構。無監督學習的檢測方案不需要提前對資料進行標記,因此能夠更快的形成檢測系統。根據具體的演算法我們將無監督學習的方案分為兩類:基於聚類和基於模型。
(1)基於聚類
(2)基於模型
3.5 檢測方案的對比
3.6 實驗方法總結
3.6.1 資料獲取方式
- 爬蟲獲取
- 公開資料集
- 與社交網站合作
3.6.2 資料標識方式
- 人工標識
- URL黑名單檢測工具
- 蜜罐系統
- 地下市場購買
- 社交網路自身功能
3.6.3 結果驗證方式
- 人工驗證
- 與社交網站合作
- 社交網站自身的功能