1. 程式人生 > >如何用機器學習定位賬戶冒用問題

如何用機器學習定位賬戶冒用問題

賬戶冒用

對於一個互聯網站點,這其實是一個挺平常的問題,因為目前“撞庫”的發生。我們收集的數據主要還是來源於如下數據:

三層數據:IP地址

四層數據:TCP初始端口、TCP初始序列號(不同系統可能存在一些實現上的差異)、滑動窗口大小

七層數據:用戶瀏覽器指紋數據,如UserAgent等能從一定角度體現用戶瀏覽器特征的數據,比如Chrome、Firefox、Safari等就有所不同

應用系統日誌:獲取用戶瀏覽頁面分類信息、頁面轉換序列及相關時間等等。


將一段時間的上述歷史數據(設定窗口,每一項可作為一個維度)通過一定的函數轉換最終進行歸一化處理(Normalization,歸一化也可對不同維度進行加權),然後通過本次瀏覽情況判斷是否是出自同一用戶,如果不是則應發送響應通知原用戶,可能出現冒用情況。


判斷的方法可以使用簡單的余弦夾角、馬爾科夫或距離關系等。形式化的描述就暫不給出了。

如何用機器學習定位賬戶冒用問題