1. 程式人生 > >信用評分模型診斷指數

信用評分模型診斷指數

原文連結:http://blog.csdn.net/lihui6636/article/details/46738557

1. 一般統計量

均值、方差、最小值、最大值、1%分位數、5%分位數、 10%分位數、25%分位數、 50%分位數、75%分位數、90%分位數、 95%分位數、 99%分位數。

一般要將資料排序後才能求得分位數。

1.1  對每個Model(SEG_A、SEG_B、SEG_C、ALL),計算score向量的統計量

1.2  對SEG_A、SEG_B、SEG_C、ALL,計算每signal向量的統計量

2. Pearson相關係數

其公式為:


其中:

0.8-1.0     極強相關
0.6-0.8     強相關
0.4-0.6     

中等程度相關
0.2-0.4     弱相關
0.0-0.2     極弱相關或無相關

2.1  對每個Model(只有SEG_A),計算signal與tag的相關係數。2.2  SEG_A、SEG_B、SEG_C、ALL,計算每兩個signal向量之間的相關係數。

3.PSI

 PSI(Population Stability Index)是衡量模型的預測值實際值偏差大小的指標。PSI 小於 0.25 意味偏差在可以接受的範圍裡。


3.1 對每個Model(SEG_A、SEG_B、SEG_C),計算score向量的PSI(1).  將基準score劃分為10個區間,將預測score按照相同的邊界值劃分為10個區間(2).  分別統計各個分割槽基準score的個數C1、預測score的個數C2
(3).  分別統計各個分割槽基準score的個數比例p1、預測score的個數比例p2(4).  計算 PSI = sum ( ( p1[i] - p2[i]  ) / ( log p1[i] -   log p2[i] ) )3.2 SEG_A、SEG_B、SEG_C、ALL,計算Signal的PSI(1).  將基準signal劃分為10個區間,將預測signal按照相同的邊界值劃分為10個區間(2).  分別統計各個分割槽基準score的個數C1、預測score的個數C2(3).  分別統計各個分割槽基準score的個數比例p1、預測score的個數比例p2(4).  計算 PSI = sum ( ( p1[i] - p2[i]  ) / ( log p1[i] -   log p2[i] ) )
3.3變數的PSI(1).對於連續型變數可以將連續型變數分段,再根據時間維度進行分組,根據各組計算穩定性。如下圖所示,這個時間維度也可以劃分為訓練樣本和驗證樣本;
(2).對於離散型變數離散變數本身就是分類的,只需要按照時間維度分組,然後計算PSI。

4.VIF

方差膨脹因子(Variance Inflation Factor,VIF):容忍度的倒數,VIF越大,顯示共線性越嚴重。經驗判斷方法表明:當0<VIF<10,不存在多重共線性;當10≤VIF<100,存在較強的多重共線性;當VIF≥100,存在嚴重多重共線性。

計算方法:  對自變數作中心標準化,則X'X 為自變數的相關陣,定義


則矩陣C的主對角線元素 VIF(i) 為自變數X(i) 的方差擴大因子VIF。 若X(i) 與其餘自變數的複決定係數為R(i)^2,VIF  與 複決定係數關係為:


4.1 對每個Model的SEG_A、SEG_B、SEG_C、ALL,計算每個signal的VIF:

(1). Signal的全矩陣為X

(2). 從X取得一列signal y,從X中刪除y得X'

(3). 對X',y作線性迴歸建模,得到模型LR

(4). 使用LR,輸入X,得到y的預測值y_pred

(5). 求得y的VIF= sum((y- y_mean)^2)/sum((y- y_pred)^2)

(6).從第二步開始重複,計算每個signal的VIF

5. ROC曲線

受試者工作特徵曲線 (receiver operating characteristic curve,簡稱ROC曲線): 是反映敏感性和特異性連續變數的綜合指標,是用構圖法揭示敏感性和特異性的相互關係,它通過將連續變數設定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱座標、(1-特異性)為橫座標繪製成曲線,曲線下面積越大,診斷準確性越高。在ROC曲線上,最靠近座標圖左上方的點為敏感性和特異性均較高的臨界值。

5.1. 對每個Model(只有SEG_A),計算score與tag的ROC曲線:

(1). 將score 降序排列

(2).  score劃分為10等份(每份個數相同)

(3).  計算每一份tag的總和即命中個數,score的最大、最小值

(4).  計算每一份的未命中個數 = 個數- 命中個數

(5).  轉化為累加矩陣,計算累加命中率、累加未命中率

(6). 計算 KS = max ( abs (累加命中率[i] - 累加未命中率[i]) ) 

(7).  計算 AUROC = sum ( (累加命中率[i] + 累加命中率[i-1])*( 累加未命中率[i] -  累加命中率[i-1]) )/2 ,  即求積分

(8).  計算累加前每層實際命中率、累加前每層預測命中率、每層累加率

(9).  ROC 曲線:X軸為累加未命中率[i]),y軸為累加命中率[i]。

6. AUC 

Area Under the ROC Curve,ROC 曲線下的面積,AUC 值在0.5 到1 之間。

6.1    對每個Model(只有SEG_A),計算score與tag的AUROC 見5.1:AUROC = sum ( (累加命中率[i] + 累加命中率[i-1])*( 累加命中率[i] -  累加命中率[i-1]) )/2 ,求積分

7.KS  

6.1    對每個Model(只有SEG_A),計算score與tag的AUC見6.1:KS = max ( abs (累加命中率 - 累加未命中率) ) 

8. CI

Condition Index  條件指數:用於診斷多重共線性。

CI > 100

強 多重共線性

CI > 30

中等多重共線性

CI > 10

弱多重共線性

Condition Index  條件指數 計算方法:計算矩陣X‘X 的特徵值,則條件數K和條件指數CI分別為:


8.1. 對每個Model(SEG_A、SEG_BSEG_C),計算signal的CI:

(1). 求出迴歸矩陣S‘S

(2).求出矩陣S‘S的特徵值lam1、lam2........lamN

(3). 求最大特徵值/最小特徵值 的平方根

9. Logit Plot

9.1. 對每個Model(只有SEG_A),計算signal與tag的logit關係:

(1). 若signal 是標籤型別,則計算其值分別為0、1時候,對應的tag的數量、均值

(2). 若signal 是數值型別,則將signal劃分為最多10個區間,計算各個區間對應的tag的數量、均值

10. CRC

10.1 對每個Model(只有SEG_A),計算score與tag 之間的線性關係:

(1).  按照score降序排列

(2).  劃分為10個等份,求出每一份的score和tag的均值

(3).  使用score均值和tag均值進行線性迴歸建立模型LR

(4).  按照模型LR,使用score均值作為變數,帶入模型LR中,計算出預測的tag均值

11. WOE

WOE 計算公式如下:

評分卡模型剖析之一(woe、IV、ROC、資訊熵)

其中Bi為每組壞樣本數,BT為總的壞樣本數。Gi為每組好樣本資料,GT為總壞樣本數。

IV的計算公式如下:

評分卡模型剖析之一(woe、IV、ROC、資訊熵)

其中Bi為每組壞樣本數,BT為總的壞樣本數。Gi為每組好樣本資料,GT為總壞樣本數。