1. 程式人生 > >金融信貸風控(一)——申請評分卡

金融信貸風控(一)——申請評分卡

網際網路金融業申請評分卡介紹

申請評分卡的重要性和特性

評分卡:

  • 以分數的形式來衡量風險機率
  • 未來一段時間內違約\逾期\失聯概率的預測
  • 通常分數越高越安全
  • 申請環節:反欺詐評分卡,申請評分卡;監控環節:行為評分卡;逾期環節:催收評分卡
評分卡型別 含義 意義
申請評分卡 用在申請環節,以者當日及過去的資訊為基礎預測未來放款後的逾期和違約概率。 用於風險控制(借貸生命週期的第一個關口)、營銷(識別優質客戶)、資本管理(可作為PD模型的一個因子)

申請評分卡的特性

  • 穩定性
    • 還款能力和還款意願在短期內不會發生劇變。當總體違約/逾期概率不變時,分數的分佈也應該不變
  • 區分性
    • 違約人群和正常人群的分數應該有明顯差異
  • 預測能力
    • 低分人群的違約率更高
  • 評分和逾期概率等價
    • 可以精準的反映違約/逾期概率,反之亦然

這裡寫圖片描述

評分卡模型開發步驟

  1. 立項:確定應用場景、物件和目的
  2. 資料準備與預處理:賬戶、客群、內部/外部資料
  3. 模型構建
  4. 模型評估:區分度、預測性、平穩性
  5. 驗證/審計:是否有計算錯誤、邏輯錯誤、業務錯誤
  6. 模型部署:從開發環境到生產環境、容量、併發度
  7. 模型監控:效能是否減弱,是否需要優化甚至重新開發

申請評分卡常用特徵

  1. 個人資訊:收入、年齡、性別
  2. 歷史行為資訊:歷史逾期記錄
  3. 負債資訊:在本金融機構或者其他金融機構負債情況
  4. 消費能力:商品購買紀錄,出境遊,奢侈品消費
  5. 新興資料:人際社交 網路足跡 出行 個人財務

非平衡樣本問題的定義和解決方法

信用風險:正常使用者遠多於逾期/違約使用者
流失風險:留存使用者多於流失使用者
平衡的定義:在金融評分資料領域中的負正樣本比例在1:20內都算資料樣本平衡。其他領域具體分析。

解決方法

因為下采樣會丟失資訊,如何減少資訊的損失呢?第一種方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采樣(放回取樣,這樣產生的訓練集才相互獨立)產生多個不同的訓練集,進而訓練多個不同的分類器,通過組合多個分類器的結果得到最終的結果。第二種方法叫做BalanceCascade,利用增量訓練的思想(Boosting):先通過一次下采樣產生訓練集,訓練一個分類器,對於那些分類正確的大眾樣本不放回,然後對這個更小的大眾樣本下采樣產生訓練集,訓練第二個分類器,以此類推,最終組合所有分類器的結果得到最終結果。第三種方法是利用KNN試圖挑選那些最具代表性的大眾樣本,叫做NearMiss,這類方法計算量很大,感興趣的可以參考“Learning from Imbalanced Data”這篇綜述的3.2.1節。