利用Python計算KS的例項詳解
在金融領域中,我們的y值和預測得到的違約概率剛好是兩個分佈未知的兩個分佈。好的信用風控模型一般從準確性、穩定性和可解釋性來評估模型。
一般來說。好人樣本的分佈同壞人樣本的分佈應該是有很大不同的,KS正好是有效性指標中的區分能力指標:KS用於模型風險區分能力進行評估,KS指標衡量的是好壞樣本累計分佈之間的差值。
好壞樣本累計差異越大,KS指標越大,那麼模型的風險區分能力越強。
1、crosstab實現,計算ks的核心就是好壞人的累積概率分佈,我們採用pandas.crosstab函式來計算累積概率分佈。
2、roc_curve實現,sklearn庫中的roc_curve函式計算roc和auc時,計算過程中已經得到好壞人的累積概率分佈,同時我們利用sklearn.metrics.roc_curve來計算ks值
3、ks_2samp實現,呼叫stats.ks_2samp()函式來計算。連結scipy.stats.ks_2samp¶為ks_2samp()實現原始碼,這裡實現了詳細過程
4、直接呼叫stats.ks_2samp()計算ks
import pandas as pd import numpy as np from sklearn.metrics import roc_curve from scipy.stats import ks_2samp def ks_calc_cross(data,pred,y_label): ''' 功能: 計算KS值,輸出對應分割點和累計分佈函式曲線圖 輸入值: data: 二維陣列或dataframe,包括模型得分和真實的標籤 pred: 一維陣列或series,代表模型得分(一般為預測正類的概率) y_label: 一維陣列或series,代表真實的標籤({0,1}或{-1,1}) 輸出值: 'ks': KS值,'crossdens': 好壞客戶累積概率分佈以及其差值gap ''' crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]]) crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum() crossdens['gap'] = abs(crossdens[0] - crossdens[1]) ks = crossdens[crossdens['gap'] == crossdens['gap'].max()] return ks,crossdens def ks_calc_auc(data,1}) 輸出值: 'ks': KS值 ''' fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]]) ks = max(tpr-fpr) return ks def ks_calc_2samp(data,1}) 輸出值: 'ks': KS值,'cdf_df': 好壞客戶累積概率分佈以及其差值gap ''' Bad = data.loc[data[y_label[0]]==1,pred[0]] Good = data.loc[data[y_label[0]]==0,pred[0]] data1 = Bad.values data2 = Good.values n1 = data1.shape[0] n2 = data2.shape[0] data1 = np.sort(data1) data2 = np.sort(data2) data_all = np.concatenate([data1,data2]) cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1) cdf2 = (np.searchsorted(data2,side='right'))/(1.0*n2) ks = np.max(np.absolute(cdf1-cdf2)) cdf1_df = pd.DataFrame(cdf1) cdf2_df = pd.DataFrame(cdf2) cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1) cdf_df.columns = ['cdf_Bad','cdf_Good'] cdf_df['gap'] = cdf_df['cdf_Bad']-cdf_df['cdf_Good'] return ks,cdf_df data = {'y_label':[1,1,0],'pred':[0.5,0.6,0.7,0.8,0.4,0.2,0.1,0.3,0.9]} data = pd.DataFrame(data) ks1,crossdens=ks_calc_cross(data,['pred'],['y_label']) ks2=ks_calc_auc(data,['y_label']) ks3=ks_calc_2samp(data,['y_label']) get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1],y_pred[y_true!=1]).statistic ks4=get_ks(data['pred'],data['y_label']) print('KS1:',ks1['gap'].values) print('KS2:',ks2) print('KS3:',ks3[0]) print('KS4:',ks4)
輸出結果:
KS1: [ 0.83333333] KS2: 0.833333333333 KS3: 0.833333333333 KS4: 0.833333333333
當資料中存在NAN資料時,有一些問題需要注意!
例如,我們在原資料中增加了y_label=0,pred=np.nan這樣一組資料
data = {'y_label':[1,
'pred':[0.5,0.9,np.nan]}
此時執行
ks1,['y_label'])
輸出結果
KS1: [ 0.83333333]
執行
ks2=ks_calc_auc(data,['y_label'])
將會報以下錯誤
ValueError: Input contains NaN,infinity or a value too large for dtype('float64').
執行
ks3=ks_calc_2samp(data,['y_label'])
輸出結果
KS3: 0.714285714286
執行
ks4=get_ks(data['pred'],data['y_label'])
輸出結果
KS4: 0.714285714286
我們從上述結果中可以看出
三種方法計算得到的ks值均不相同。
ks_calc_cross計算時忽略了NAN,計算得到了資料正確的概率分佈,計算的ks與我們手算的ks相同
ks_calc_auc函式由於內建函式無法處理NAN值,直接報錯了,所以如果需要ks_calc_auc計算ks值時,需要提前去除NAN值。
ks_calc_2samp計算得到的ks因為searchsorted()函式(有興趣的同學可以自己模擬資料看下這個函式),會將Nan值預設排序為最大值,從而改變了資料的原始累積分佈概率,導致計算得到的ks和真實的ks有誤差。
總結
在實際情況下,我們一般計算違約概率的ks值,這時是不存在NAN值的。所以以上三種方法計算ks值均可。但是當我們計算單變數的ks值時,有時資料質量不好,存在NAN值時,繼續採用ks_calc_auc和ks_calc_2samp就會存在問題。
解決辦法有兩個
1. 提前去除資料中的NAN值
2. 直接採用ks_calc_cross計算。
以上這篇利用Python計算KS的例項詳解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。