金融信貸風控(一)——申請評分卡
阿新 • • 發佈:2018-12-31
網際網路金融業申請評分卡介紹
申請評分卡的重要性和特性
評分卡:
- 以分數的形式來衡量風險機率
- 對未來一段時間內違約\逾期\失聯概率的預測
- 通常分數越高越安全
- 申請環節:反欺詐評分卡,申請評分卡;監控環節:行為評分卡;逾期環節:催收評分卡
評分卡型別 | 含義 | 意義 |
---|---|---|
申請評分卡 | 用在申請環節,以者當日及過去的資訊為基礎預測未來放款後的逾期和違約概率。 | 用於風險控制(借貸生命週期的第一個關口)、營銷(識別優質客戶)、資本管理(可作為PD模型的一個因子) |
申請評分卡的特性
- 穩定性
- 還款能力和還款意願在短期內不會發生劇變。當總體違約/逾期概率不變時,分數的分佈也應該不變
- 區分性
- 違約人群和正常人群的分數應該有明顯差異
- 預測能力
- 低分人群的違約率更高
- 評分和逾期概率等價
- 可以精準的反映違約/逾期概率,反之亦然
評分卡模型開發步驟
- 立項:確定應用場景、物件和目的
- 資料準備與預處理:賬戶、客群、內部/外部資料
- 模型構建
- 模型評估:區分度、預測性、平穩性
- 驗證/審計:是否有計算錯誤、邏輯錯誤、業務錯誤
- 模型部署:從開發環境到生產環境、容量、併發度
- 模型監控:效能是否減弱,是否需要優化甚至重新開發
申請評分卡常用特徵
- 個人資訊:收入、年齡、性別
- 歷史行為資訊:歷史逾期記錄
- 負債資訊:在本金融機構或者其他金融機構負債情況
- 消費能力:商品購買紀錄,出境遊,奢侈品消費
- 新興資料:人際社交 網路足跡 出行 個人財務
非平衡樣本問題的定義和解決方法
信用風險:正常使用者遠多於逾期/違約使用者
流失風險:留存使用者多於流失使用者
平衡的定義:在金融評分資料領域中的負正樣本比例在1:20內都算資料樣本平衡。其他領域具體分析。
解決方法
因為下采樣會丟失資訊,如何減少資訊的損失呢?第一種方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采樣(放回取樣,這樣產生的訓練集才相互獨立)產生多個不同的訓練集,進而訓練多個不同的分類器,通過組合多個分類器的結果得到最終的結果。第二種方法叫做BalanceCascade,利用增量訓練的思想(Boosting):先通過一次下采樣產生訓練集,訓練一個分類器,對於那些分類正確的大眾樣本不放回,然後對這個更小的大眾樣本下采樣產生訓練集,訓練第二個分類器,以此類推,最終組合所有分類器的結果得到最終結果。第三種方法是利用KNN試圖挑選那些最具代表性的大眾樣本,叫做NearMiss,這類方法計算量很大,感興趣的可以參考“Learning from Imbalanced Data”這篇綜述的3.2.1節。