基於python的k-s值計算

阿新 • • 發佈：2019-04-08

\n odi das csdn 出現區分 min ima 篩選

做評分卡模型時（假設有多個自變量，因變量即是否違約。）通常需要篩選變量。

k-s值的作用類似於AUC,它期初是用來評價模型（變量）對是否違約事件的區分程度的。

技術分享圖片

# -*- coding: utf-8 -*-
"""
Created on Mon Apr  8 17:04:37 2019

@author: Administrator
ks計算

"""
import pandas as pd
import numpy as np

data_test_2 = {‘y30‘:[1,1,1,1,1,1,0,0,0,0,0,0,0],‘a‘:[1,2,0,2,2,7,4,5,4,0,4,18,np.nan]}
data_test_2  
= pd.DataFrame(data_test_2)

def ks_calc_cross(data,var_col,y_col):
    ‘‘‘
    功能: 計算KS值，輸出對應分割點和累計分布
    輸入值:-
    輸出值:
    ‘ks‘: KS值，‘crossdens‘: 好壞人累積概率分布以及其差值gap
    ‘‘‘
    ks_df1 = pd.crosstab(data[var_col],data[y_col])
    ks_df2 = ks_df1.cumsum(axis=0) / ks_df1.sum()
    ks_df2[‘gap 
‘] = abs(ks_df2[0] - ks_df2[1])
    ks = ks_df2[‘gap‘].max()
    return ks,crossdens

ks_value,ks_df2 = ks_calc_cross(data_test_2, ‘a‘, ‘y30‘)
print(ks_value,‘\n‘,ks_df2)

技術分享圖片

ks檢驗介紹<轉載>
筆者剛入門機器學習開始做的例子就是金融場景下風控模型。那時評價模型的好壞就用傳統的機器學習評價標準，比如說準確率、精確率和AUC，對風控模型的ks指標還一無所知，倒是作為統計科班出身的童鞋，第一次見到ks想到的就是數理統計中的Kolmogorov-Smirnov檢驗(柯爾莫哥洛夫-斯米爾洛夫)。後來實習過程中，發現老板們在看風控模型結果最關註的結果就是ks指標，才開始對ks指標逐漸重視起來。在衡量模型效果時，對評分卡或者機器學習模型給出的違約概率和y值計算ks值，給出模型效果來確定模型的好壞（一般0.3左右可以使用，0.4以上模型效果較高，超過0.7，可能模型有問題，這時候需要去debug一下是不是出現了特征信息泄露以及一些其他的問題）。筆者在實際應用中，發現市面上關於ks系統介紹的文章比較少，本文就系統的介紹一下ks的前世今生，以及在在風控模型下的多種實現。

參考：《風控分類模型種類（決策、排序）比較與模型評估體系（ROC/gini/KS/lift）》

https://blog.csdn.net/qq_38984677/article/details/85632268

《分類模型的評價指標--混淆矩陣，ROC，AUC，KS，Lift，Gain》

註意：對名義變量不適合用k-s值。一下證明了變量值的排序影響最終的ks值：

技術分享圖片

基於python的k-s值計算

\n odi das csdn 出現區分 min ima 篩選做評分卡模型時（假設有多個自變量，因變量即是否違約。）通常需要篩選變量。 k-s值的作用類似於AUC,它期初是用來評價模型（變量）對是否違約事件的區分程度的。 # -*- coding: u

基於python的k-s值計算

基於python的k-s值計算

[原始碼和報告分享]基於C++的表示式計算求值

[原始碼和文件分享]基於C++的表示式計算求值

給定一個字串表示式s，計算其值（使用string和stack實現）

D. Powerful array 離線+莫隊算法給定n個數，m次查詢；每次查詢[l,r]的權值；權值計算方法：區間某個數x的個數cnt，那麽貢獻為cntcntx; 所有貢獻和即為該區間的值；

mysql 累計值計算

(轉)Unity3D 之插值計算

基於哈希值的Set集合HashSet

基於Masonry自己主動計算cell的高度

【小松教你手遊開發】【unity實用技能】線性差值計算實現

CAR值計算中的轉置問題

Python tkinter 實現簡單登陸註冊基於B/S三層體系結構，實現用戶身份驗證

Java中++,--,前綴後綴表達值的不同,與^的值計算

離散值計算方法JAVA實現

python3 列表內多個字典相同項目值計算合並

ap、map值計算

基於B/S的輔導員工作管理系統設計--文獻隨筆（二）

mysql設定表列的時候把時間設定成String型別，java 程式後面涉及到當前時間和資料庫裡資料的差值計算，怎麼破？

學習大資料課程 spark 基於記憶體的分散式計算框架（二）RDD 程式設計基礎使用

基於RGB差值法的顏色分割

基於python的k-s值計算

相關推薦