大資料風控系統概述
為什麼要做風控系統
不做的話,會有以下風險:
- 各種小號、垃圾賬號氾濫
- 撞庫攻擊、盜號、毀號、拖庫等
- 拉新 10w 留存率不到 5%
- 百萬營銷費用,卻增加不了使用者粘性
- 投票票數差距非常懸殊
- 各種榜單被垃圾賬號佔領
- 實物獎勵被機器人領走
- 紅包被秒搶
- 下單不付款佔庫存
- 虛擬佔座
- 刷單炒信
- ……
風控場景
- 營銷活動反作弊
防禦現金紅包獎勵、優惠劵促銷、電商秒殺等營銷活動場景下薅羊毛、黃牛黨倒賣等各種欺詐行為
- 內容防盜爬
防禦行業競爭資料、高價值內容、隱私資料等被盜爬行為
- 渠道流量反作弊
防禦 iOS、國內外 Android 等各類渠道推廣流量作弊行為
- 刷榜刷單防護
防禦直播熱度排行、電商銷量排行、熱門內容推薦等場景下惡意刷榜刷單行為
- 虛假使用者裂變識別
防禦拉新、助力砍價、電商拼團等場景下虛假使用者裂變行為
- 支付風控
防禦盜卡交易、遊戲代充等欺詐行為
作弊手段
打介面和虛擬機器
這兩種手法比較相似,都是用電腦模擬手機等移動裝置,以虛假裝置資訊和網站、APP 的伺服器端通訊。
這種低成本手段是移動網際網路水大魚大時期的遺留物,銘刻著各平臺未對黑產痛下殺手時的“美好記憶”,由於操作簡便,不需額外資源,仍是目前主流的黑產手段之一。
識別打介面的主要方式是:引入裝置標識判斷邏輯,沒有任何裝置標識資訊或資訊不正確,就會被判斷為打介面“假客戶端”。
識別虛擬機器的方法:其中一種方法是看 CPU、PC 上虛擬機器使用的 CPU 指令集架構和移動裝置會有明顯差別,如果發現指令集屬於 PC 而非移動裝置,則識別成功。
裝置農場
此後,黑產不得不啟用更高成本的新手段——用真實手機作惡,裝置農場形態應運而生。
這是與黑產對決的一個長期堡壘,攻防雙方的手段交替進化,主要經歷下面幾個階段:
簡單刷機(通過修改單個裝置資訊,如 IMEI 號,用一臺手機模擬出多個移動裝置)、
複雜刷機(通過修改多維度裝置資訊模擬移動裝置)、
Hook 改機(通過劫持系統函式、返還虛假資訊模擬移動裝置)和
多開(通過劫持系統函式,同時在單臺手機上開啟幾十個相同應用,如幾十個微信,提高作惡效率),
把黑產逼到了不得不啟用“真機農場”的境地。
而真機農場,就是“老老實實”地把一臺手機當做一個裝置來用,相比用一臺真實設計模擬數個虛假裝置,其成本已十分高昂。
反欺詐工程師們也找到了應對真機農場的關鍵:即便不刷機、不 Hook,群控卻依然是黑產無法繞過的核心,所以在對群控多維痕跡進行專門檢測後,真機農場也無所遁形。
2018 年的黑產新動向:雲手機、硬體外掛和積分牆
雲手機
2018 年 9 月下旬,雲手機橫空出世。就像其名稱所展示的,這是雲端計算在黑產界的最新應用。和“雲手機”的對決,
雲手機和傳統裝置農場的最大區別是:它背後並不是一個真正的手機,而是一套搭載在雲伺服器上的虛擬手機。
在雲手機加持的新型農場裡,場景更加“科幻”——掛在牆上的不再是成百上千的手機,而是一片片裝載了安卓的板卡,這些板卡可被電腦群控,模擬正常智慧手機的註冊、點選、分享等一系列使用者行為。
硬體外掛
在雲端計算之外,黑產也開始用起了硬體外掛。
大牛是一款可插裝在蘋果手機上的硬體,它最牛的功能是,是插上之後,能讓蘋果手機在不“越獄”(開放使用者操作許可權)的情形下實現改機和篡改 GPS 的目的。
搞清了這個原理後,只要識別出相關特徵,大牛也就不牛了。
積分牆
目前這波黑產中最難搞定的 Boss 級手段——積分牆。積分牆其實就是“人刷”,由羊頭和羊群協作完成。
厲害的羊頭能觸及多達萬級乃至十萬級的職業、半職業羊毛黨。一旦有大漏洞出現,羊頭就會將訊息層層放出,組織大家一起薅——在由各種訊號、傳輸協議連線的“平靜網際網路”中,羊頭引領這支大軍,進行著“奪金不用刀”的無聲“搶劫”。
電商平臺今年初的優惠券漏洞,就可以理解成一次驚動全網的“積分牆”。積分牆的攻防難點在於,背後是真人、真裝置。很難識別,這也是我們近期對抗的重點,不過現在也快識別得差不多了。”
識別的方法也自成體系,主要通過團伙特徵和行為時序異常等維度來綜合判斷,再結合通過大資料例行運營挖掘出的積分牆應用,一起做到風險可控。
風控系統解決方案
全鏈路風控解決方案,包括三大部分:事前預防、事中檢測處置、事後分析回饋
- 事前預防:通過資料採集收集使用者側資訊、通過業務規則來限定參與活動的門檻、通過身份核驗來確認使用者身份等手段,防止風險事件的發生。
- 事中檢測處置:通過實時線上的手段來檢測風險,並做相應的風險處置,防止風險事件的發生。
- 事後分析回饋:基於長週期的離線資料分析,計算使用者側、裝置側、IP 側、業務側的各種風險特徵,並作用於事前風控和事中風控。
風控主要功能
從資料提供規範、支援規則和社群、黑產庫、輸出方式等方面提供完整的解決方案
風控引擎主要的工作是識別風險,一般的風控引擎都需要如下幾個功能:
- 名單服務:建立黑、白、灰名單;
- 畫像服務:建立基於 IP、手機號、賬戶等層級的畫像服務;
- 指標計算:一般包括高頻類統計、求和、計數、求平均值、求最大值、求最小值等等;
- 風控模型:基於採集到的資料,建立風控模型,比如:裝置模型、行為模型、業務模型等;基於機器學習、深度學習技術來構建業務模型、裝置模型、行為模型,或文字類模型(異常地址檢測、異常暱稱檢測)等;
- 規則引擎:最終的風控資料進入規則引擎,由規則引擎判斷是否存在風險。風控運營需基於業務建立各種風控規則,以識別風險。
風控系統架構
資料採集
使用者資訊/ 裝置指紋 / 操作行為 / 網路資料 / 提現資料 /第三方資料
機器學習模型
- 社交網路
欺詐團伙識別,基於手機號、裝置、IP,行為等建立時域關聯網路,利用社群發現、
風險傳播等無監督演算法精準防禦黑產團伙欺詐行為
- 離群點分析
識別異常頻率行為使用者,如刷量使用者
- 複雜事件處理
基於一些規則模型,檢測異常行為。比如信用卡盜刷檢測,
識別使用者短時間內切換不同地點登陸賬戶
- 效果評估
準確率 召回率
異常團伙示例
通過機器學習模型生成的團伙行為特徵如下所示:
社群成員有相同的手機型號和手機號字首,且啟動時間高度一致,還都在充電,該團伙疑似為裝置農場作弊。
規則引擎
根據規則和閾值進行判斷,返回使用者風控等級,下面為幾個規則引擎方案:
藉助成熟的規則引擎,比如 Drools,Drools 和 Java 環境結合的非常好,本身也非常完善,支援很多特性,不過使用比較繁瑣,有較高門檻
基於 Groovy 等動態語言自己完成
Spark SQL + 規則轉化成的 SQL 語句構建規則引擎對使用者風控指標進行分級
管理系統
- 指標管理
- 指標組合管理
- 閾值管理
- 名單管理
- 提現審批
參考
https://zhuanlan.zhihu.com/p/84747637
https://www.cnblogs.com/cx2016/p/11647110.html
https://www.jianshu.com/p/a14f1d9a1d9d
https://ixyzero.com/blog/archives/4270.html
更多文章
知識圖譜在大資料中的應用
基於Spark Graphx+Neo4j實現使用者社群發現
基於大資料聚類社群的作弊使用者發現方法
基於 Apache Flink 和規則引擎的實時風控解決方案
Flink 在同程藝龍實時計算平臺的研發與應用實踐
MapReduce Shuffle 和 Spark Shuffle 原理概述
攜程是如何把大資料用於實時風控