金融風控-->申請評分卡模型-->申請評分卡介紹
從這篇博文開始,我將總結金融風控中的另外一個模型:申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。
本篇博文將以以下四個主題來進行介紹說明:
- 信用風險和評分卡模型的基本概念
- 申請評分卡在網際網路金融業的重要性和特性
- 貸款申請環節的資料介紹和描述
- 非平衡樣本問題的定義和解決方法
信用風險和評分卡模型的基本概念
什麼是信用風險
交易對手未能履行約定契約中的義務而造成經濟損失的風險,即受信人不能履行還本付息的責任而使授信人的預期收益與實際收益發生偏離的可能性它是金融風險的主要型別。
壞樣本的定義
- M3 & M3+ 逾期
- 債務重組
- 個人破產
- 銀行主動關戶或登出
- 其他相關違法行為
M0,M1,M2的定義
- M0:最後繳款日的第二天到下一個賬單日
- M1:M0時段的延續,即在未還款的第二個賬單日到第二次賬單的最後繳款日之間
-
M2:M1的延續,即在未還款的第三個賬單日到第三次賬單的最後繳款日之間
信用卡賬單日是指髮卡銀行每月會定期對你的信用卡賬戶當期發生的各項交易,費用等進行彙總結算,並結計利息,計算你的當期總欠款金額和最小還款額,併為你郵寄賬單,此日期即為賬單日。而還款日則是指信用卡髮卡銀行要求持卡人歸還應付款項的最後日期。
簡單點說,銀行會對你的當期應還款形成賬單並通知你,賬單形成日即為賬單日,同時,銀行不會要求你馬上就還款,而是會給你一個緩衝期,通常是20天(具體根據各銀行制定標準),該期限截止日即為還款到期日。這20天之內全額還款或是選擇信用卡最低還款額方式還款,可以享受免息待遇,但如果逾期,就會計息了。
什麼是評分卡
信貸場景中的評分卡
- 以分數的形式來衡量風險機率的一種手段
- 是對未來一段時間內違約/逾期/失聯概率的預測
- 有一個明確的(正)區間
- 通常分數越高越安全
- 資料驅動(蒐集資料,對資料研究,建立模型)
-
反欺詐評分卡、申請評分卡(Application)、行為評分卡(Behavior)、催收評分卡(Collection)
①反欺詐評分卡、申請評分卡是在貸前准入環節裡面
②申請評分卡用到的大部分是申請者的背景變數,而且這個模型一般也會比較謹慎。
③行為評分卡表示申請者已經獲准貸款,已經放出貸款以後,根據貸款人的消費習慣,還款情況等一些信用特徵,就是跟蹤客戶合同開始後的表現,來預估使用者逾期或者是違約概率。
④催收評分卡是對已經逾期或者違約的客戶,對他進行一個催收評分,嚴格來講,有三個模型,還款率模型,賬齡滾動模型,失聯模型。
本篇博文主要講的是申請評分卡模型。
觀察期與表現期
觀察期
- 蒐集變數、特徵的時間視窗,通常3年以內
- 帶時間切片的變數(比如過去半年還款情況;過去每個月最大還款額等帶時間切片的特徵)
表現期
蒐集是否觸發壞樣本定義的時間視窗,通常6個月~1年
需要對這張圖進行一個詳細的說明,觀察點不一定是哪一天,可以是一段時間內,在某個時間區間內所有申請人,只要他們觀察期和表現期相同即可。舉例來說,當一個申請人在2017-7-14號這天來銀行申請貸款,銀行需要用已有的模型對申請人進行一個申請評分,評估他未來一年(表現期)內違約或者是逾期的概率,然後決定是否放貸。那麼這個已有的模型是什麼時候建立的呢?這裡我們假定觀察期為三年,因為上面是評估一年所以這裡表現期為一年,那麼往前推一年為2016-7-14號左右某個時間區間內作為觀察點,再往前推三年(即觀察期:2013-7-14到2016-7-14),利用這三年所有觀察點內申請人一些資訊建立模型的觀察變數(即特徵),然後再往後推一年(即表現期:2016-7-14到2017-7-14),所有在觀察點內的申請人在這一年時間內的表現情況來定義違約。然後來訓練出一個模型。對2017-7-14號的申請人進行評分。所以申請評分卡模型有著天然的滯後性,需要不斷的對其模型進行監控。
評分卡模型開發步驟
-
立項
-
資料準備與預處理
銀行自有資料和第三方資料 -
模型構建
假設模型訓練集的觀察點(即客戶的申請時間段)為2016-01到2016-03,那麼這個模型的觀察期(這裡我們假定為三年)為2013-01到2016-01,模型的表現期(這裡我們假定為一年)為2016-03到2017-03。 -
模型評估
對照上面的模型構建的時間來,我們來建立測試集,假定其測試集觀察點(即客戶的申請時間段)為(2017-04),同理可得觀察期,和表現期真實的違約或者逾期與否。這時把模型放在這個測試集上進行測試看看效果如何。這裡需要注意訓練集和測試集上使用者在表現期的表現如何都是基於一個已經發生的時間段上。
模型評估的幾個標準在下面會詳細說到。 - 驗證/審計
實施人跟上面不一樣,文件撰寫等
-
模型部署
新舊模型替換,評分卡的實時性要求沒那麼高,在銀行通常一個月更新一次模型。有些諮詢機構可能一天更新一次評分卡模型。 -
模型監控
跟蹤模型各項效能是否發生弱化。
評分卡開發的常用模型
-
邏輯迴歸
優點: 簡單,穩定,可解釋,技術成熟,易於監測和部署
缺點:準確度不高 -
決策樹
優點: 對資料質量要求低,易解釋
缺點:準確度不高 -
其他元模型
-
組合模型
優點: 準確度高,不易過擬合
缺點:不易解釋;部署困難;計算量大
模型監控的指標
AR(Accuracy Ratio)
衡量分數預測能力的指標 ,需要一個完整的表現期。看看這個模型能不能把壞樣本很好的區分處理。其取值位於-1~1之間。具有滯後性。
如果我們今天用AR來監控模型的好壞,那麼只能是監控模型在一年(這裡假定表現期為一年)之前的資料上表現的好壞。
先把樣本按分數由低到高排序,X軸是總樣本的累積比例,Y軸是壞樣本佔總的壞樣本的累積比例。AR就是等於模型在隨機模型之上的面積除以理想模型在隨機模型之上的面積。計算中可以用梯形近似逼近曲線下面積來計算,AR越高說明模型區分效果越好。
下圖公式中Xk,Yk代表分數的第K個分位點對應的累積總樣本及相應的壞樣本的比例。設總的壞樣本的比例為Bo,令(Xk,Yk)=(0,0)
KS(Kolmogorov-Smirnov)
衡量分數區分能力的指標。
把樣本按分數由低到高排序,X軸是總樣本累積比例,Y是累積好,壞樣本分別佔總的好,壞樣本的比例。兩條曲線在Y軸方向上的相差最大值即KS。KS越大說明模型的區分能力越好。
Bad k和Good k分別表示為分數累積到第k個分位點的壞樣本個數和好樣本個數,KS計算公式:
PSI( Population Stablility Index)
衡量分數穩定性的指標
按分數對人群進行分組,令Ri是現在樣本中第i組佔總樣本的百分比,Bi是一段時間後第i個分組佔總樣本的百分比。PSI取值越小說明分數的分佈隨時間變化越小。
Kendall’s Tau
正確有效的評分卡模型中,低分數的實際逾期率應該嚴格大於高分段的實際逾期率。我們將分數從低到高劃分為10組,每組的實際逾期率記做r1,r2,r3,…,r10。對所有的(ri,rj)的組合,如果有ri< rj且i< j,或者ri> rj且i> j,則記做一個discordant pair,否則記做concordant pair。其計算公式如下:
Kendall’s Tau越接近1或者等於1,說明逾期率在分數上的單調下降性越明顯,反之說明分數變化與逾期率的變化的一致性得不到保證。
Migration Matrix
遷移矩陣是衡量分數矩陣的指標,對相同的人群,觀察在相鄰兩次監控日期(一週)分數的遷移變化。遷移矩陣中元素Mjk代表上次監控日期分數在第j組中的人群在當前遷移到第k組的概率。實際計算中可把分數平均分成10組,計算這10組之間的遷移矩陣。
申請評分卡的重要性和特性
網際網路金融特性與產品
-
傳統金融機構+非金融機構
-
傳統金融機構: 傳統金融業務的網際網路創新以及電商化創新、APP軟體等
- 非金融機構:利用網際網路技術進行金融運作的電商企業
(P2P)模式的網路借貸平臺
眾籌模式的網路投資平臺
挖財類(模式)的手機理財APP(理財寶類)
第三方支付平臺等。
為什麼要開發申請評分卡
- 風險控制
- 營銷
- 資本管理
評分卡的特性
- 穩定性
- 區分性
- 預測能力
- 和逾期概率等價(即評分和逾期率呈相關性)
貸款申請環節的資料介紹和描述
申請評分卡常用的特徵
個人資訊 : 學歷 性別 收入
負債資訊 : 在本金融機構或者其他金融機構負債情況
消費能力 : 商品購買紀錄,出境遊,奢侈品消費
歷史信用記錄 : 歷史逾期行為
新興資料 : 人際社交 網路足跡 出行 個人財務
非平衡樣本問題的定義和解決方法
非平衡樣本的定義
在分類問題中,每種類別的出現概率未必均衡
信用風險:正常使用者遠多於逾期/違約使用者
流失風險: 留存客戶多於流失客戶
非平衡樣本的隱患
降低對少類樣本的靈敏性
非平衡樣本的解決方案
過取樣
- 優點: 簡單,對資料質量要求不高
- 缺點: 過擬合
欠取樣
- 優點: 簡單,對資料質量要求不高
- 缺點: 丟失重要資訊
SMOTE(合成少數過取樣技術)
- 優點: 不易過擬合,保留資訊
- 缺點: 不能對有缺失值和類別變數做處理
相關推薦
金融風控-->申請評分卡模型-->特徵工程(特徵分箱,WOE編碼) 標籤: 金融特徵分箱-WOE編碼 2017-07-16 21:26 4086人閱讀 評論(2) 收藏 舉報 分類: 金融風
這篇博文主要講在申請評分卡模型中常用的一些特徵工程方法,申請評分卡模型最多的還是logsitic模型。 先看資料,我們現在有三張表: 已加工成型的資訊: Master表 idx:每一筆貸款的unique key,可以與另外2個檔案裡的idx相匹配。 UserInfo_*:借款人特徵欄位 WeblogI
金融風控-->申請評分卡模型-->申請評分卡介紹
從這篇博文開始,我將總結金融風控中的另外一個模型:申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。 本篇博文將以以下四個主題來進行介紹說明: 信用風險和評分卡模型的基本概念申請評分卡在網際網路金融業的重要性和特性貸款申請環節的資料介紹和描述非平衡樣本問題的定義和解決方法 信用風險和評分卡模
【金融風控】如何應用“緊急聯絡人”資料
【原文連結】:https://mp.weixin.qq.com/s/a3_J5fsB2wwxXCM55lLUHw 正文前,請大家思考一個問題:一個借貸場景,如果我們沒有辦法驗證一條資訊的真實性(例如:你沒辦法確認申請人是否真的結婚,家裡是否真的有子女),那麼,我們還需要申請人提供這一資訊嗎?
【資料大放送】27頁PPT|資料科學在金融風控中的應用
本文是天善智慧簽約講師李雲的課程 資料科學在金融風控中的應用 https://edu.hellobi.com/course/296 課件,未經允許,禁止轉載。 分享內容: 1.金融風控與資料科學什麼關係 2.金融風險未來前
微眾稅銀首席風險官許衛 :AI在金融風控領域的實踐應用
10月28日FMI-2018人工智慧與大資料高峰論壇深圳場圓滿落幕,微眾稅銀首席風險官許衛以AI在金融風控領域的實踐應用為主題進行了精彩的分享。 微眾稅銀首席風險官許衛 以下是許衛演講內容,飛馬網根據現場速記進行了不改變原意的編輯(
金融風控資料建模導論
(一)序言 (二)序言 金融風控具體在哪個環節才需要資料建模 貸前稽核 貸後管理 反欺詐 1.2 金融機構信貸風控流程介紹 (1)客戶申請 沒啥可說的 (2)資料填寫
AI改變金融風控,深度學習技術可以將壞賬降低35% | 乾貨
昨天在風控群內,大家都在討論平安普惠COO的觀點,“在放貸領域,只有0和1的概念,要麼借要麼不借”,有人說,0和1的概念肯定不適用於貸款審批,信貸審批是多維評判的,沒有不能貸的客戶,只有不能貸的機制;也有人說,風險定價、風險補償機制就是用來在0和1之間進行調節的;而大家都
機器學習——2(大資料金融風控的預測案例學習總結)
大資料金融風控的預測案例 1)資料準備 a)離群點處理 總體上先對資料進行了解,做一些簡單統計,對連續性數值與字元型數值的處理; 離群點的處理: 首先,離群點的定義:是與其他大多數樣本的行為或特徵分佈不一致的那些點; 處理方式:方法1—首先統計每個樣
Palantir的研究到金融風控(二)
目前人工智慧已經深入金融、零售、汽車等行業,其中在金融行業的應用場景比較明確,所以AI在金融行業的發展比較快,應用相對要比其它行業來說要成熟。承接上篇文章,這裡著重總結一下知識圖譜在金融領域的應用: 一、知識圖譜能幫金融做什麼? 舉幾個例子: 以
【ArchSummit乾貨分享】個推大資料金融風控演算法實踐
作者:個推高階資料工程師 曉駿 眾所周知,金融是資料化程度最高的行業之一,也是人工智慧和大資料技術重要的應用領域。隨著大資料收集、
金融風控100道面試題:傳統銀行開發轉行互金top3公司並年薪40多萬
知乎上有一個50萬人看過的問題“為什麼自學Python看不進去?”,其實原因很簡單,大家缺乏能動手實戰的機會。知識要是死記硬背記在在腦海中,用不了多久就會忘記,只用依靠實戰才能讓知識落地。小七這次就特意為大家準備了GitHub上非常受歡迎,適合新手的兩個專案。30個指令碼作者為大家準備了30+個Python自
金融信貸風控(一)——申請評分卡
網際網路金融業申請評分卡介紹 申請評分卡的重要性和特性 評分卡: 以分數的形式來衡量風險機率 對未來一段時間內違約\逾期\失聯概率的預測 通常分數越高越安全 申請環節:反欺詐評分卡,申請評分卡;監控環節:行為評分卡;逾期環節:催收評分卡
風控評分模型開發流程
一 概述 餘額支付的風險識別模型分為兩類:(1)盜號交易識別風險 和 (2)盜卡交易識別風險。其中盜卡交易識別風險和餘額有關主要是由於騙子註冊號碼幫盜來的卡,然後進行充值到餘額,通過餘額支付銷贓。(1)和(2)兩種針對的情景不一樣,採用的特徵變數和變數的重要性很大程度是不一樣的。針對(1
P2P暴雷後續 完善網際網路金融大資料風控模型成為命門
金融的本質就是信用、風險、交易、融資、財富管理,信用是整個金融領域的根本基石,所以金融風控是被很多金融公司擺放在第一位,資產規模放在第二位,2018年P2P行業暴雷對整個金融理財貸款行業產生了巨大的影響,這其中很多企業倒閉,就是因為風控沒有做好,風控問題已經成為今日行業的焦點,特別是大資料風控模型已
4步教你開發風控評分模型
“你的模型準麼?” “你的模型真的有用麼?” “你的模型對風控有價值麼?” 在為P2P公司建立風控評分模型過程中,這是最常見的問題。為了回答這一問題,我們想先討論下如何從實際業務出發,以怎樣的開發流程才能建立一個有效、有用、有價值的模型,希望讀後能給你一定的啟發。
TCRP-《信貸風控評分卡簡介》課程筆記
講師介紹 無偏 信貸風控資深資料分析師 課程介紹 本課程主要對信貸風控領域的評分卡進行介紹,包括評分卡中的申請評分卡,行為評分卡和催收評分卡。針對申請評分卡,本課程展示了基於邏輯迴歸和BestKS分箱演算法(BestKS分箱演算法是一種以最優KS為分割點的二叉樹結構的
餘額支付風控 -- 風控評分模型篇
餘額支付風控 風控評分模型篇 by dylanfan at 2015-2-11 一 概述 餘額支付的風險識別模型分為兩類:(1)盜號交易識別風險 和 (2)盜卡交易識別風險。其中盜卡交易識別風險和餘額有
如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇
數據驅動 數據分析 人工智能 數據質量 如何“謹慎”使用“數據驅動”的風控模型(一)-- 數據篇 人工智能時代來臨,2017年“數據驅動”在整個信貸生態圈熱度陡增,無論是金融機構、助貸機構、征信機構、大數據廠商等,無不在各大論壇、峰會、沙龍、融資中宣傳各自“數據驅動”的理
如何“謹慎”使用“數據驅動”的風控模型(三)——監控篇
pro sha nag -o 異常 靈活 目的 去除 決策體系 之前小編介紹了謹慎使用“數據驅動”的風控模型,需要“高質量的數據 + 審慎嚴謹的決策模型 + 實時全面的監控分析”動態閉環。動態閉環能夠“動態”起來,需要最後一個步驟“監控”把關,全面、細致的分析、評估決策效果
9月第3周業務風控關註|央行:將進一步探索構建行業共享的金融網絡安全防護平臺
防護 缺陷 cto process 單位 個人 情況 依然 hat 易盾業務風控周報每周呈報值得關註的安全技術和事件,包括但不限於內容安全、移動安全、業務安全和網絡安全,幫助企業提高警惕,規避這些似小實大、影響業務健康發展的安全風險。 1.央行:將進一步探索構建行業共享的金