1. 程式人生 > >如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇

如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇

數據驅動 數據分析 人工智能 數據質量

如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇

人工智能時代來臨,2017年“數據驅動”在整個信貸生態圈熱度陡增,無論是金融機構、助貸機構、征信機構、大數據廠商等,無不在各大論壇、峰會、沙龍、融資中宣傳各自數據驅動的理念。而銀監會的121號文則給大大小小的機構潑了一盆冷水,謹慎使用數據驅動的風控模型,字字珠璣。小編認為,監管層的意圖無需過度解讀,但無疑監管層已深刻洞察行業魚龍混雜,充斥著以數據驅動為名、實以高利率覆蓋高壞賬的玩家。小編也在與各大信貸機構的風控從業人員、風控解決方案提供商的交流過程中,發現對數據驅動理念一知半解的大有人在,更別談謹慎

使用了。小編總結認為至少存在以下誤區:

? 對接了外部征信數據就認為是數據驅動或者是大數據風控

? 過度依賴大廠或權威資源,例如芝麻分、人行征信等等,缺乏自主風控能力

? 算法至上,認為風控模型解決一切,KS值多高、壞賬率控制的多低,雲雲

人工智能的發展離不開數據,作為未來消費金融行業的重要著力點,如何正確搭建數據驅動的風控模型,並“謹慎”使用呢?

技術分享圖片 技術分享圖片

首先談理念,這裏需要將討論的範圍從狹義的風控模型擴展到風控體系,限於篇幅,僅介紹小額消費信貸的風控審核場景,應對欺詐風險及信用風險,不包括操作風險、流動性風險及系統性風險。大額度的消費信貸或小微企業融資,以目前的征信數據條件人工參與風控是必不可少的,此處不再贅述。數據驅動(風控)的關鍵理念包括:

ü 理解你的客戶,不同的客戶群體、消費場景、產品設計所面臨的風險點是不同的,沒有一套風控體系(風控模型)可以包打天下;

ü 數據為先,有用的數據、高質量的數據是成功的關鍵,如同沒有上好的食材,給個米其林三星大廚也沒用;

ü 風控體系搭建非一日之功,數據驅動也非一針見效的靈丹妙藥,需要不斷的叠代、優化,小步快跑,早期建議先進行小範圍、短周期試驗,除非公司不在乎錢;

ü 風控的目的不是杜絕壞賬,而是基於盈利的預期,平衡風險與收益,取得利潤最大化;

ü 緊盯你的數據表現,切勿盲目樂觀,新的風險往往從未知之處悄然而至,如果你的風控體系能越快識別、應對、抵禦這些風險,遭受的損失就會越少。

鋪墊了這麽多,終於可以切入主題了。謹慎使用

數據驅動的風控體系,需要數據 + 決策 + 監控的動態閉環。整個體系需要不斷的演進,通過持續的模擬測試,A/B實驗,不斷發現新的規律、新的變量,使風控體系越來越健壯。

數據篇技術分享圖片

風控數據包括了采集的原始數據與加工的衍生數據,原始數據包括產品采集的用戶基本信息、設備指紋、消費場景相關的交易信息,以及外部征信數據;衍生數據是按照風控決策的需要,對原始數據加工後的變量。

數據的種類很多,用途也很多。設備指紋數據與反欺詐高度相關,多頭借貸、失信被執行人等數據則與信用風險強相關,性別、年齡、地域、學歷等則是信用風險的弱相關數據,通常組合在一起使用更有效。

技術分享圖片


在互聯網爆炸的時代,XX盾,XX融,XX查,XX聯等數據供應商鋪天蓋地,企業內部也有動輒成千甚至上萬的數據標簽,大家似乎都不缺數據。然而,數據多不代表數據有用,數據多不代表能夠支撐高頻、實時、復雜、多變的風控決策,錯誤的數據一定會得到錯誤的決策結果。因此,今天小編著重和大家聊聊數據質量管理,如何確保數據能用、有用。

數據質量管理,通常由以下5個關鍵步驟組成:質量問題探查,清洗規則定義,清洗方案測試及部署,實時數據清洗,數據質量監控。

技術分享圖片

數據剖析:解決問題之前,必須了解問題。要解決數據質量,首先要了解數據的現狀,了解潛在的問題。舉個栗子,假設我們拿到一批數據,其中有性別這個字段,我們想當然會覺得裏面的值應該是“男”或“女”,但實際觀察裏面的值可能是“男”、“女”、“男性”、“女性”、“F”、“M”,“空”,等等;再比如,×××的字段,有些是18位的,有些是15位的,也可能是12位的,仔細觀察12位的數據,它是截取了前4位或後4位,中間用了*號做掩碼;再比如,電話號碼字段,觀察其中的數據,有固話、手機、帶區號的、不帶區號的,區號分國家代碼的,區號不分國家代碼的,等等。可以想象,數據字段越多,剖析出的問題會非常多。我們有時把數據質量管理等同於數據清洗這個動作,實際上,數據剖析的重要性絲毫不亞於數據清洗的執行,沒有足夠的數據剖析,是無法制定完善的數據清洗方案的。

清洗規則定義:通過數據剖析,了解了數據的各項問題之後,就可以針對各數據項的特點,設計清洗的規則。清洗的方法有很多種,包括替換、映射、截取,等等。除了將數據清洗成幹凈有用的數據之外,通常還需要制定規則,將無法清洗的臟數據隔離起來。

清洗方案測試與部署:確定了清洗規則之後,部署之前應經過充分的模擬和測試,可以先用離線數據、歷史數據進行批量清洗,檢查清洗的效果。

實時數據清洗:清洗方案部署到線上系統後,可以自動清洗實時采集的數據,及時將臟數據隔離起來。

數據質量實時監控:數據清洗不是一勞永逸的,一切都在變化之中。是不是出現了新型的臟數據?清洗程序有沒有正常運行?數據源是否出現了質量事故?數據源是否斷了?能不能自動切換主備線或采取其他的備用機制?一句話,數據質量實時監控。

好了,數據篇的主要內容今天就介紹到這裏,近期還會繼續推出:如何“謹慎”使用“數據驅動”的風控模型(二)-- 決策篇,向大家介紹完整的風控決策體系,敬請期待。


如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇