1. 程式人生 > >淺談信貸評分卡模型

淺談信貸評分卡模型

畢竟進入了金融安全這個坑,基本的信貸評分卡模型還是需要知道的,今天就綜合各個方面的資料來講解一下在信貸領域使用的最多的評分卡模型。

整體來說,評分卡是信用風險評估領域的常用建模方法(剛開始是運用在信貸領域,後來這種思想被廣泛地擴充套件到其他的領域:反欺詐,支付寶信用評估等)。這其實是一種很古老的概念了,大約在18世紀出現了信用卡的雛形,有了信用卡就需要對申請信用卡的人進行信用評估,因此自然而然的就有了信用評分機制,不過剛開始的信用評分機制基本採用的都是專家經驗的方式,由人工根據經驗對每一項申請人的條件進行分值評定。

顯然,人工的方式缺乏科學性,隨著人工智慧時代的到來,機器學習方法也被應用到了評分卡場景中來。現在我們再講到評分卡模型,其實大部分都暗示了是應用了機器學習策略的評分卡生成方式。需要強調的是,評分卡並不是簡單地 對應於某一種機器學習演算法(雖然現在在評分卡應用場景中LogisticRegression是用的最多的演算法),而是一種通用的建模框架,將原始資料通過分箱後進行特徵工程變換,繼而應用於線性模型進行建模的一種方法。
下面是使用機器學習方法來進行評分卡模型的生成過程:
這裡寫圖片描述

之所以要使用評分卡模型這種方式,一方面是因為其效果確實好,更關鍵的一點是其具有比較好的可解釋性,可以很方便業務專家對模型進行把控。因此對於一些連續性特徵首先要進行的就是分箱(離散化)處理。其中等頻和等寬分箱比較好理解,這個自動分箱就是讓模型自動地選出最合適的離散化方式,其實用的就是對應IV(information Value)值的劃分方式,說到IV值就不得不提到WOE,下面就來介紹一下這兩個概念。
WOEi=In(PgoodPbad)WOE_i=In(\frac{P_{good}}{P_{bad}})
IV=i=1N(PgoodPbad)WO

EiIV=\sum_{i=1}^N(P_{good}-P_{bad})*WOE_i
從中可以看出,IV其實就是WOE的加權求和
所謂WOEiWOE_i的下標i就指代了某一連續特徵中的第i個分段位的WOE值
其中一種分段方式即WOE的計算方式如下所示:
這裡寫圖片描述

其中關於IV值的相關描述如下所示,值越大代表特徵和目標的相關性越強:
這裡寫圖片描述

下面就來講解一下評分卡具體的計算方法:
定義odds=p1podds=\frac{p}{1-p}
評分卡設定的分值刻度可以通過將分值表示為比率對數的線性表示式來定義。公式如下:
sco

retotal=A+BIn(odds)score_{total}=A+B*In(odds)
設定比率為θ0\theta_0的特定點分值為P0P_0,比率為2θ02\theta_0的點的分值為P0+PDDP_0+PDD,帶入上式就可以很方便的求出A和B值。

一般來說我們會用Logistic Regression來表徵對於P值的估計,公式如下:
P=11+eθTxP=\frac{1}{1+e^{-\theta^T x}}
則有odds=In(p1p)=θTxodds=In(\frac{p}{1-p})=\theta^T x
故有scoretotal=A+B(θTx)=A+B(w0+w1x1+....wnxn)=(A+Bw0)+Bw1x1+....+Bwnxnscore_{total}=A+B*(\theta^T x)=A+B*(w_0+w_1x_1+....w_nx_n)=(A+B*w_0)+B*w_1x_1+....+B*w_nx_n
其中A和B在之前的佈置中已經計算出來了,xnx_n是特徵資料的WOE編碼,最終轉化生成的評分卡形式如下所示:
這裡寫圖片描述
這樣來了一個使用者申請之後,就可以根據評分卡得出終端使用者的信用得分,進而決定是否是否接受該使用者的借貸申請。
需要注意的是,上面這種做法只是一種經典的做法,但不是唯一的做法。比方說對於同一變數x1x_1,它的不同的WOE可以對應不同的w係數。同時不一定採用WOE編碼(只不過這種編碼方式在信貸評分場景中更常用),還有很多種其他的編碼方式可以選擇,比方說one-hot編碼等。

同時可以擴充套件的是,不一定要針對全部的使用者用一張評分卡模型,可以按照類似決策樹的方式對使用者進行分類,針對每一個子類的使用者生成一份具有針對性的評分卡模型。如下所示:
這裡寫圖片描述
這裡寫圖片描述

還有最後一個額外的擴充套件點,有時候往往因為業務的需要,我們需要對這些係數w1w_1,wnw_n的大小做一個限制(往往業務專家希望對應WOE值大的變數的變數所對應的係數ww也要大一些),這就要求在進行模型訓練的時候採用相應的策略:
無約束的優化演算法:SGD,Newton Method,L-BFGS
有約束的優化演算法:Barrier Method,SQP(Active Set Method)