【有監督分箱】方法二： Best-KS分箱

阿新 • • 發佈：2018-12-04

銜接上一篇工作：https://blog.csdn.net/hxcaifly/article/details/80203663

變數的KS值

KS(Kolmogorov-Smirnov)用於模型風險區分能力進行評估，指標衡量的是好壞樣本累計部分之間的差距。KS值越大，表示該變數越能將正，負客戶的區分程度越大。通常來說，KS>0.2即表示特徵有較好的準確率。強調一下，這
裡的KS值是變數的KS值，而不是模型的KS值。（後面的模型評估裡會重點講解模型的KS值）。
KS的計算方式：

計算每個評分割槽間的好壞賬戶數。
計算各每個評分割槽間的累計好賬戶數佔總好賬戶數比率（good%)和累計壞賬戶數佔總壞賬戶數比率（bad%）。

計算每個評分割槽間累計壞賬戶比與累計好賬戶佔比差的絕對值（累計good%-累計bad%），然後對這些絕對值取最大值記得到KS值。

Best-KS分箱

Best-KS分箱的演算法執行過程是一個逐步拆分的過程：

將特徵值值進行從小到大的排序。
計算出KS最大的那個值，即為切點，記為D。然後把資料切分成兩部分。
重複步驟2，進行遞迴，D左右的資料進一步切割。直到KS的箱體數達到我們的預設閾值即可。
Best-KS分箱的特點：
連續型變數：分箱後的KS值<=分箱前的KS值
分箱過程中，決定分箱後的KS值是某一個切點，而不是多個切點的共同作用。這個切點的位置是原始KS值最大的位置。

整體程式碼

# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#import missingno as msno
plt.style.use('fivethirtyeight')
import warnings
import datetime
warnings.filterwarnings('ignore')
#%matplotlib inline
#from tqdm import tqdm

import 
 re
import math
import time
import itertools
import random

from logging import Logger
from logging.handlers import TimedRotatingFileHandler
import os

#######################################################KS分箱的主體邏輯##############################################
def init_logger(logger_name,logging_path):
    if not os.path.exists(logging_path):
        os.makedirs(logging_path)
    if logger_name not in Logger.manager.loggerDict:
        logger  = logging.getLogger(logger_name)
        logger.setLevel(logging.DEBUG)
        handler = TimedRotatingFileHandler(filename=logging_path+"/%sAll.log"%logger_name,when='D',backupCount = 7)
        datefmt = '%Y-%m-%d %H:%M:%S'
        format_str = '[%(asctime)s]: %(name)s %(filename)s[line:%(lineno)s] %(levelname)s  %(message)s'
        formatter = logging.Formatter(format_str,datefmt)
        handler.setFormatter(formatter)
        handler.setLevel(logging.INFO)
        logger.addHandler(handler)
        console= logging.StreamHandler()
        console.setLevel(logging.INFO)
        console.setFormatter(formatter)
        logger.addHandler(console)
        handler = TimedRotatingFileHandler(filename=logging_path+"/%sError.log"%logger_name,when='D',backupCount=7)
        datefmt = '%Y-%m-%d %H:%M:%S'
        format_str = '[%(asctime)s]: %(name)s %(filename)s[line:%(lineno)s] %(levelname)s  %(message)s'
        formatter = logging.Formatter(format_str,datefmt)
        handler.setFormatter(formatter)
        handler.setLevel(logging.ERROR)
        logger.addHandler(handler)
    logger = logging.getLogger(logger_name)
    return logger

def get_max_ks(date_df, start, end, rate, factor_name, bad_name, good_name, total_name,total_all):
    '''
    計算最大的ks值
    :param date_df: 資料來源
    :param start: 第一條資料的index
    :param end: 最後一條資料的index
    :param rate:
    :param factor_name:
    :param bad_name:
    :param good_name:
    :param total_name:
    :param total_all:
    :return:最大ks值切點的index
    '''
    ks = ''
    #獲取黑名單資料
    bad = date_df.loc[start:end,bad_name]
    #獲取白名單資料
    good = date_df.loc[start:end,good_name]

   #np.cumsum累加。計算黑白的數量佔比，累計差
    bad_good_cum = list(abs(np.cumsum(bad/sum(bad)) - np.cumsum(good/sum(good))))  
    if bad_good_cum:
        #找到最大的ks
        max_ks = max(bad_good_cum)
        #找到最大ks的切點index。
        index_max = bad_good_cum.index(max_ks)
        t = start + index_max
        len1 = sum(date_df.loc[start:t,total_name])
        len2 = sum(date_df.loc[t+1:end,total_name])
        #這個就是rate起的效果，一旦按照最大ks切點切割資料，要保證兩邊的資料量都不能小於一個閾值
        if len1 >= rate*total_all:
            if len2 >= rate*total_all:
                ks = t
    #如果分割之後，任意一部分資料的數量小於rate這個閾值，那麼ks就返回為空了。
    return ks

def cut_fun(x,date_df,types,rate,factor_name,bad_name,good_name,total_name,total_all):
    '''

    :param x: List，就是儲存了date_df的第一條index和最後一條index的List。
    :param date_df: 資料來源
    :param types: 不知道是什麼意思
    :param rate: rate的含義也是一直不清楚
    :param factor_name: 待分箱的特徵欄位
    :param bad_name:
    :param good_name:
    :param total_name:
    :param total_all:
    :return: 資料的start index,切點index,end index。
    '''
    if types == 'upper':
        #起始從date_df的第一條開始
        start = x[0]
    else:
        start = x[0]+1
    #結束時date_df的最後一條
    end = x[1]
    t = ''
    #很明顯start != end,所以就執行這個函式體
    if start != end:
        #計算得到最大ks切點index的值，並且把值存入t。
        t = get_max_ks(date_df,start,end,rate,factor_name,bad_name,good_name,total_name,total_all)
    if t:
        #把t存入x。
        x.append(t)
        #這個時候x存著[start，切點，end]
        x.sort()
    if t == 0:
        x.append(t)
        x.sort()

    return x

def cut_while_fun(t_list,date_df,rate,factor_name,bad_name,good_name,total_name,total_all):
    '''

    :param t_list: start_index,分箱切點 ,end_index
    :param date_df:
    :param rate:
    :param factor_name:
    :param bad_name:
    :param good_name:
    :param total_name:
    :param total_all:
    :return:
    '''
    if len(t_list) != 2:
        #切點左邊資料
        t_up = [t_list[0],t_list[1]]
        #切點右邊資料
        t_down = [t_list[1],t_list[2]]

        #遞迴對左邊資料進行切割
        if t_list[1]-t_list[0] > 1 and sum(date_df.loc[t_up[0]:t_up[1],total_name]) >= rate * sum(date_df[total_name]):

            t_up = cut_fun(t_up,date_df,'upper',rate,factor_name,good_name,bad_name,total_name,total_all)
        else:
            t_up = []

        #遞迴對右邊資料進行切割
        if t_list[2]-t_list[1] > 1 and sum(date_df.loc[t_down[0]+1:t_down[1],total_name]) >= rate * sum(date_df[total_name]):
            t_down = cut_fun(t_down,date_df,'down',rate,factor_name,good_name,bad_name,total_name,total_all)
        else:
            t_down = []
    else:
        t_up = []
        t_down = []
    return t_up,t_down

def ks_auto(date_df,piece,rate,factor_name,bad_name,good_name,total_name,total_all):
    '''
    :param date_df: 資料來源
    :param piece: 分箱數目
    :param rate: 最小數量佔比，就是把資料通過切點分成兩半部分之後，要保證兩部分的數量都必須不能小於這個佔比rate。
    :param factor_name: 待分箱的特徵名稱
    :param bad_name: 黑名單特徵名稱
    :param good_name: 白名單特徵名稱
    :param total_name: 總和的特診名稱
    :param total_all: 總共資料量
    :return: 返回整個分箱的間隔點，用List儲存。這裡是以date_df的index為分割點的。
    '''
    t1 = 0
    #資料來源的大小，條數
    t2 = len(date_df)-1
    num = len(date_df)
    #還不知道這樣做的目的是什麼。
    if num > pow(2,piece-1):
        num = pow(2,piece-1)

    #新定義一個list,這個list是什麼含義
    t_list = [t1,t2]
    tt =[]
    i = 1
    #如果資料來源的條數大於1，就表示有分箱的資格
    if len(date_df) > 1:
        #這個是為了獲取date_df資料的[start_index，切點_index, end_index]
        #將資料根據ks最大處進行二分
        t_list = cut_fun(t_list,date_df,'upper',rate,factor_name,bad_name,good_name,total_name,total_all)
        tt.append(t_list)
        for t_new in tt:
            #>2說明，分箱是成功的。
            if len(t_new) > 2:
                #
                up_down = cut_while_fun(t_new,date_df,rate,factor_name,bad_name,good_name,total_name,total_all)
                t_up = up_down[0]
                if len(t_up) > 2:
                    #
                    t_list = list(set(t_list+t_up))
                    tt.append(t_up)
                t_down = up_down[1]
                if len(t_down) > 2:
                    t_list = list(set(t_list+t_down))
                    tt.append(t_down)
                i += 1
                #注意迴圈的停止條件
                #1. i表示通過箱數限制break
                #2. len(t_list)還不是很清楚
                if len(t_list)-1 > num:
                    break
                if i >= piece:
                    break
    if len(date_df) > 0:
        #這裡有個疑問，我感覺有問題
        #這裡為啥要獲取第一條資料，total的數量
        length1 = date_df.loc[0,total_name]
        if length1 >= rate*total_all:
            if 0 not in t_list:
                t_list.append(0)
        else:
            t_list.remove(0)
    t_list.sort()
    return t_list

def get_combine(t_list, date_df, piece):
    '''
    :param t_list: 這個值分箱間隔點
    :param date_df: 資料來源
    :param piece: 分箱的箱數，表示第幾箱。
    :return: 列舉所有的分箱可能組合
    '''
    t1 = 0
    t2 = len(date_df)-1
    list0 = t_list[1:len(t_list)-1]
    combine = []
    if len(t_list)-2 < piece:
        c = len(t_list)-2
    else:
        c = piece-1
    #獲取list0的所有子序列。子序列長度是c
    list1 = list(itertools.combinations(list0, c))
    if list1:
        #向list1收尾新增資料，頭部新增t1-1,尾部新增t2
        combine = map(lambda x: sorted(x + (t1-1,t2)),list1)
    return combine

def cal_iv(date_df,items,bad_name,good_name,total_name):
    '''

    :param date_df:
    :param items:
    :param bad_name:
    :param good_name:
    :param total_name:
    :return: 返回計算的IV值
    '''
    iv0 = 0
    bad0 = np.array(map(lambda x: sum(date_df.ix[x[0]:x[1],bad_name]),items))
    good0 = np.array(map(lambda x: sum(date_df.ix[x[0]:x[1],good_name]),items))
    bad_rate0 = np.array(map(lambda x: sum(date_df.ix[x[0]:x[1],bad_name])*1.0/sum(date_df.ix[x[0]:x[1],total_name]),items))
    if 0 in bad0:
        return iv0
    if 0 in good0:
        return iv0
    good_per0 = good0*1.0/sum(date_df[good_name])
    bad_per0 = bad0*1.0/sum(date_df[bad_name])
    woe0 = map(lambda x: math.log(x,math.e),good_per0/bad_per0)
    if sorted(woe0, reverse=False) == list(woe0) and sorted(bad_rate0, reverse=True) == list(bad_rate0):
        iv0 = sum(woe0*(good_per0-bad_per0))
    elif sorted(woe0, reverse=True) == list(woe0) and sorted(bad_rate0, reverse=False) == list(bad_rate0):
        iv0 = sum(woe0*(good_per0-bad_per0))
    return iv0

def choose_best_combine(date_df,combine,bad_name,good_name,total_name):
    '''
    :param date_df: 資料來源
    :param combine: 所有的分箱可能
    :param bad_name:
    :param good_name:
    :param total_name:
    :return: 通過最大IV值，來得到最優的分箱方法
    '''
    z = [0]*len(combine)
    for i in range(len(combine)):
        item = combine[i]
        z[i] = (zip(map(lambda x: x+1,item[0:len(item)-1]),item[1:]))
    #計算最大的IV值
    iv_list = map(lambda x: cal_iv(date_df,x,bad_name,good_name,total_name),z)
    iv_max = max(iv_list)
    if iv_max == 0:
        return ''
    index_max = iv_list.index(iv_max)
    combine_max = z[index_max]
    #返回最好的分箱組合

    #[(0, 180), (181, 268), (269, 348), (349, 450), (451, 605)] 類似於這種資料

    return combine_max

def verify_woe(x):
    if re.match('^\d*\.?\d+$', str(x)):
        return x
    else:
        return 0

def best_df(date_df, items, na_df, rate, factor_name, total_name, bad_name, good_name,total_all,good_all,bad_all):
    '''

    :param date_df:
    :param items: 分箱間隔，陣列[(0, 180), (181, 268), (269, 348), (349, 450), (451, 605)]
    :param na_df:
    :param rate:
    :param factor_name:
    :param total_name:
    :param bad_name:
    :param good_name:
    :param total_all:
    :param good_all:
    :param bad_all:
    :return:分箱之後的指標儲存為dataframe，並返回。
    '''
    df0 = pd.DataFrame()

    if items:
        piece0 = map(lambda x: '['+str(date_df.ix[x[0],factor_name])+','+str(date_df.ix[x[1],factor_name])+']',items)
        bad0 = map(lambda x: sum(date_df.ix[x[0]:x[1],bad_name]),items)
        good0 = map(lambda x: sum(date_df.ix[x[0]:x[1],good_name]),items)

        if len(na_df) > 0:
            piece0 = np.array(list(piece0) + map(lambda x: '['+str(x)+','+str(x)+']',list(na_df[factor_name])))
            bad0 = np.array(list(bad0) + list(na_df[bad_name]))
            good0 = np.array(list(good0) + list(na_df[good_name]))
        else:
            piece0 = np.array(list(piece0))
            bad0 = np.array(list(bad0))
            good0 = np.array(list(good0))

        #bad0,good0都是list資料結構
        total0 = bad0 + good0
        #計算每一個箱子的總數量佔比
        total_per0 = total0*1.0/total_all
        #當前箱子的黑名單比例
        bad_rate0 = bad0*1.0/total0
        #當前箱子的白名單比例
        good_rate0 = 1 - bad_rate0
        #當前箱子的白名單在整體白名單資料的比例
        good_per0 = good0*1.0/good_all
        #當前箱子黑名單在在整體黑名單資料的比例
        bad_per0 = bad0*1.0/bad_all
        #先將這些資料儲存為數框
        df0 = pd.DataFrame(zip(piece0,total0,bad0,good0,total_per0,bad_rate0,good_rate0,good_per0,bad_per0),columns=['Bin','Total_Num','Bad_Num','Good_Num','Total_Pcnt','Bad_Rate','Good_Rate','Good_Pcnt','Bad_Pcnt'])
        #通過bad_rate進行排序
        df0 = df0.sort_values(by='Bad_Rate',ascending=False)
        df0.index = range(len(df0))
        bad_per0 = np.arr

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    【有監督分箱】方法二： Best-KS分箱
       
 
  
  
 銜接上一篇工作：https://blog.csdn.net/hxcaifly/article/details/80203663 
 變數的KS值 
 KS(Kolmogorov-Smirnov)用於模型風險區分能力進行評估，指標衡量的是好壞樣本累計部分之間的差距 。KS值越大，表示該變數 

  
 

    

    
    【深入Java虛擬機】之二：Class類文件結構
      本質   拒絕   處理   implement   align   默認值   改變   占用   至少   平臺無關性
    Java是與平臺無關的語言，這得益於Java源代碼編譯後生成的存儲字節碼的文件，即Class文件，以及Java虛擬機的實現。不僅使用Java編譯器可以把Java代碼編譯成存儲字節 

  
 

    

    
    【深入Java虛擬機器】之二：Class類檔案結構
      
                


平臺無關性
    Java是與平臺無關的語言，這得益於Java原始碼編譯後生成的儲存位元組碼的檔案，即Class檔案，以及Java虛擬機器的實現。不僅使用Java編譯器可以把Java程式碼編譯成儲存位元組碼的Class檔案，使用JRuby等其他語言的編譯器也可以把程式 

  
 

    

    
    【日常學習】【搜索/遞歸】codevs2802 二的冪次方題解
      sni   trac   mil   amp   方法   data   font   經典   註意   



轉載請註明出處 [ametake版權全部]http://blog.csdn.net/ametake歡迎來看 




題目描寫敘述 Description

不論什麽一個正 

  
 

    

    
    【資料結構與演算法】之二叉查詢樹 --- 第十三篇
       
 
 樹是一種非線性資料結構，這種資料結構要比線性資料結構複雜的多，因此分為三篇部落格進行講解： 
 第一篇：樹的基本概念及常用操作的Java實現（二叉樹為例） 
 第二篇：二叉查詢樹 
 第三篇：紅黑樹 
 
 本文目錄 
 1、二叉查詢樹的基本概念 
 2、二叉查詢樹的查詢操作 
 3、二叉查詢樹的插 

  
 

    

    
    【無人機 學習筆記 6】GPS定位方式 GPS差分定位
       
 
 一、GPS定位原理 
   
 二、GPS定位方式 
 按定位方式：單點定位，相對定位（差分定位） 
 按接收機的運動狀態分：動態定位，靜態定位 
 2.1、絕對定位(單點定位) 
 絕對位置，即某一座標系下的絕對座標 
  
 2.2、相對定位(差分定位) 
 基線向量，即進行同步觀測的 

  
 

    

    
    【U3D效能優化教程——CPU篇】之二：靜態批處理&靜態批處理
      
								
								            
						
                














這篇文章由唐三胖ヾ(•ω•`)o網路整理總結，針對DrawCall概念的系列優化教程。



通過這篇文章，你可以知道

1）動態/靜態批處理的概念

2）什麼時候會動態批 

  
 

    

    
    【U3D系統架構教程——開發篇】之二：Log日誌系統2.0
      
                














這篇文章由唐三胖ヾ(•ω•`)o網路整理總結，將告訴你如何開發一個高效率的日誌系統。



通過這篇文章，你可以知道

1）C#特性Condtional

2）開發2.0版的日誌系統



開篇介紹

通過上一章節的介紹，我們已經實現了重寫的日誌 

  
 

    

    
    【笨方法學PAT】1037 Magic Coupon （25 分）
       
 
 
 一、題目 
 The magic shop in Mars is offering some magic coupons. Each coupon has an integer N printed on it, meaning that when you use this c 

  
 

    

    
    【笨方法學PAT】1059 Prime Factors （25 分）
       
 
 
 一、題目 
 Given any positive integer N, you are supposed to find all of its prime factors, and write them in the format N = p1k 

  
 

    

    
    【笨方法學PAT】1051 Pop Sequence （25 分）
       
 
 
 一、題目 
 Given a stack which can keep M numbers at most. Push N numbers in the order of 1, 2, 3, ..., N and pop randomly 

  
 

    

    
    【Python+OpenCV入門學習】十二、影象的幾何變換
      
                本篇文章介紹影象處理的幾何變換，幾何變換有平移、縮放、旋轉等。

主要學習resize()、warpAffine()等函式的使用。

環境：Windows 7（64）   Python 3.6    OpenCV3.4.2

一、縮放

1.1 resize()函式介紹

r 

  
 

    

    
    Weka中的有監督的離散化方法
      
								
								            
							
							
							

對應分析Weka中weka.filters.supervised.attribute.Discretize 
涉及的其他類包括weka.filters.Filter 
分析的巨集觀程式碼

Disc 

  
 

    

    
    【笨方法學PAT】1108 Finding Average （20 分）
       
 
 
 一、題目 
 The basic task is simple: given N real numbers, you are supposed to calculate their average. But what makes it complicated is that  

  
 

    

    
    【笨方法學PAT】1112 Stucked Keyboard （20 分）
       
 
 
 一、題目 
 On a broken keyboard, some of the keys are always stucked. So when you type some sentences, the characters corresponding to those keys will a 

  
 

    

    
    【笨方法學PAT】1122 Hamiltonian Cycle （25 分）
       
 
 
 一、題目 
 The "Hamilton cycle problem" is to find a simple cycle that contains every vertex in a graph. Such a cycle is called a "Hamiltonian cycle". 
 

  
 

    

    
    【笨方法學PAT】1121 Damn Single （25 分）
       
 
 
 一、題目 
 "Damn Single (單身狗)" is the Chinese nickname for someone who is being single. You are supposed to find those who are alone in a big party, so  

  
 

    

    
    【系統分析與設計】作業二
      
								
								            
							
							
							1. 簡答題


簡述瀑布模型、增量模型、螺旋模型（含原型方法）的優缺點。 
瀑布模型 
　優點：降低軟體開發的複雜程度，提高軟體開發過程的透明性，提高軟體開發過程的可管理性；推遲軟體實現，強調在軟體實 

  
 

    

    
    【Java 安全技術探索之路系列：J2SE安全架構】之二：安全管理器
      
							
							
							



一 安全管理器的功能

安全管理器是一個允許程式實現安全策略的類，它會在執行階段檢查需要保護的資源的訪問許可權及其它規定的操作許可權，保護系統免受惡意操作攻擊，以達到系統的安全策略。

安全管理器負責檢查的操作主要包括以下幾個：


建立一個新的類載入器 

  
 

    

    
    【GAN ZOO翻譯系列】Cat GAN：UNSUPERVISED AND SEMI-SUPERVISED LEARNING WITH CATEGORICAL GAN 用於監督和半監督學習的GAN
       
  
  
 
  Jost Tobias Springenberg 
  
   弗萊堡大學 
   
    79110 Freiburg, Germany 
    
     [email protected] 
     
      原文連結https://arxiv.org/abs