python自動分箱,計算woe,iv的例項程式碼

阿新 • • 發佈：2020-01-09

筆者之前用R開發評分卡時，需要進行分箱計算woe及iv值，採用的R包是smbinning,它可以自動進行分箱。近期換用python開發，也想實現自動分箱功能，找到了一個woe包，地址https://pypi.org/project/woe/，可以直接 pip install woe安裝。

由於此woe包官網介紹及給的例子不是很好理解，關於每個函式的使用也沒有很詳細的說明，經過一番仔細探究後以此文記錄一下該woe包的使用及其計算原理。

例子

官方給的例子不是很好理解，以下是我寫的一個使用示例。以此例來說明各主要函式的使用方法。計算woe的各相關函式主要在feature_process.py中定義。

import woe.feature_process as fp
import woe.eval as eval
 
#%% woe分箱,iv and transform
data_woe = data #用於儲存所有資料的woe值
civ_list = []
n_positive = sum(data['target'])
n_negtive = len(data) - n_positive
for column in list(data.columns[1:]):
 if data[column].dtypes == 'object':
 civ = fp.proc_woe_discrete(data,column,n_positive,n_negtive,0.05*len(data),alpha=0.05)
 else:  
 civ = fp.proc_woe_continuous(data,alpha=0.05)
 civ_list.append(civ)
 data_woe[column] = fp.woe_trans(data[column],civ)
 
civ_df = eval.eval_feature_detail(civ_list,'output_feature_detail_0315.csv')
#刪除iv值過小的變數
iv_thre = 0.001
iv = civ_df[['var_name','iv']].drop_duplicates()
x_columns = iv.var_name[iv.iv > iv_thre]

計算分箱，woe,iv

核心函式主要是freature_process.proc_woe_discrete()與freature_process.proc_woe_continuous()，分別用於計算連續變數與離散變數的woe。它們的輸入形式相同：

proc_woe_discrete(df,var,global_bt,global_gt,min_sample,alpha=0.01)

proc_woe_continuous(df,alpha=0.01)

輸入：

df: DataFrame，要計算woe的資料，必須包含'target'變數，且變數取值為{0，1}

var:要計算woe的變數名

global_bt:全域性變數bad total。df的正樣本數量

global_gt:全域性變數good total。df的負樣本數量

min_sample:指定每個bin中最小樣本量，一般設為樣本總量的5%。

alpha:用於自動計算分箱時的一個標準，預設0.01.如果iv_劃分>iv_不劃分*（1+alpha)則劃分。

輸出：一個自定義的InfoValue類的object，包含了分箱的一切結果資訊。

該類定義見以下一段程式碼。

class InfoValue(object):
 '''
 InfoValue Class
 '''
 def __init__(self):
 self.var_name = []
 self.split_list = []
 self.iv = 0
 self.woe_list = []
 self.iv_list = []
 self.is_discrete = 0
 self.sub_total_sample_num = []
 self.positive_sample_num = []
 self.negative_sample_num = []
 self.sub_total_num_percentage = []
 self.positive_rate_in_sub_total = []
 self.negative_rate_in_sub_total = []
 
 def init(self,civ):
 self.var_name = civ.var_name
 self.split_list = civ.split_list
 self.iv = civ.iv
 self.woe_list = civ.woe_list
 self.iv_list = civ.iv_list
 self.is_discrete = civ.is_discrete
 self.sub_total_sample_num = civ.sub_total_sample_num
 self.positive_sample_num = civ.positive_sample_num
 self.negative_sample_num = civ.negative_sample_num
 self.sub_total_num_percentage = civ.sub_total_num_percentage
 self.positive_rate_in_sub_total = civ.positive_rate_in_sub_total
 self.negative_rate_in_sub_total = civ.negative_rate_in_sub_total

列印分箱結果

eval.eval_feature_detail(Info_Value_list,out_path=False)

輸入：

Info_Value_list:儲存各變數分箱結果(proc_woe_continuous/discrete的返回值）的List.

out_path:指定的分箱結果儲存路徑，輸出為csv檔案

輸出：

各變數分箱結果的DataFrame。各列分別包含如下資訊：


var_name	變數名
split_list	劃分區間
sub_total_sample_num	該區間總樣本數
positive_sample_num	該區間正樣本數
negative_sample_num	該區間負樣本數
sub_total_num_percentage	該區間總佔比
positive_rate_in_sub_total	該區間正樣本佔總正樣本比例
woe_list	woe
iv_list	該區間iv
iv	該變數iv(各區間iv之和）

輸出結果一個示例（擷取部分）：

woe轉換

得到分箱及woe,iv結果後，對原資料進行woe轉換，主要用以下函式

woe_trans(dvar,civ): replace the var value with the given woe value

輸入：

dvar: 要轉換的變數，Series

civ: proc_woe_discrete或proc_woe_discrete輸出的分箱woe結果，自定義的InfoValue類

輸出：

var: woe轉換後的變數，Series

分箱原理

該包中對變數進行分箱的原理類似於二叉決策樹，只是決定如何劃分的目標函式是iv值。

1）連續變數分箱

首先簡要描述分箱主要思想：

1.初始化資料集D =D0為全量資料。轉步驟2

2.對於D，將資料按從小到大排序並按數量等分為10份，記錄各劃分點。計算不進行仍何劃分時的iv0，轉步驟3.

3.遍歷各劃分點，計算利用各點進行二分時的iv。

如果最大iv>iv0*(1+alpha)（使用者給定，預設0.01）: 則進行劃分，且最大iv對應的即確定為此次劃分點。它將D劃分為左右兩個結點，資料集分別為DL,DR.轉步驟4.

否則：停止。

4.分別令D=DL,D=DR,重複步驟2.

為了便於理解，上面簡化了一些條件。實際劃分時還設計到一些限制條件，如不滿足會進行區間合併。

主要限制條件有以下2個：

a.每個bin的數量佔比>min_sample(使用者給定）

b.每個bin的target取值個數>1，即每個bin必須同時包含正負樣本。

2）連續變數分箱

對於離散變數分箱後續補充 to be continued...

以上這篇python自動分箱,計算woe,iv的例項程式碼就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python自動分箱,計算woe,iv的例項程式碼

筆者之前用R開發評分卡時，需要進行分箱計算woe及iv值，採用的R包是smbinning,它可以自動進行分箱。近期換用python開發，也想實現自動分箱功能，找到了一個woe包，地址https://pypi.org/project/woe/，可以直接 pip

python通過elixir包操作mysql資料庫例項程式碼

本文研究的主要是python通過elixir包操作mysql資料庫的相關例項，具體如下。 python操作資料庫有很多方法，下面介紹elixir來操作資料庫。elixir是對sqlalchemy lib的一個封裝，classes和tables是一一對應的，能夠一步

python與sqlite3實現解密chrome cookie例項程式碼

本文研究的主要問題：有一個解密chrome cookie的事情，google出了程式碼，卻不能正常執行，原因在於sqlite3的版本太低，雖然我切換到了python3.5的環境，但sqlite3的版本也只有3.6。

python列印直角三角形與等腰三角形例項程式碼

前言本文通過示例給大家詳細介紹了關於python列印三角形的相關，分享出來供大家參考學習，下面話不多說了，來一起看看詳細的介紹吧

python畫微信表情符的例項程式碼

#@project = facepalm #@file = main #@author = Maoliang Ran #@create_time = 2018/8/28 22:57 import turtle # 畫指定的任意圓弧

Python連線Oracle之環境配置、例項程式碼及報錯解決方法詳解

Oracle Client 安裝 1、環境日期：2019年8月1日公司已經安裝好Oracle服務端 Windows版本：Windows10專業版

Python統計文字詞彙出現次數的例項程式碼

問題描述有時在遇到一個文字需要統計文字內詞彙的次數的時候，可以用一個簡單的python程式來實現。

Python繪製全球疫情變化地圖的例項程式碼

目前全球疫情仍然比較嚴重，為了能清晰地看到疫情爆發以來至現在全球疫情的變化趨勢，我繪製了一張疫情變化地圖。廢話不多說，先上圖

Python實現七個基本演算法的例項程式碼

1.順序查詢當資料儲存在諸如列表的集合中時，我們說這些資料具有線性或順序關係。每個資料元素都儲存在相對於其他資料元素的位置。由於這些索引值是有序的，我們可以按順序訪問它們。這個過程產實現的搜尋即為順

使用Python畫了一棵聖誕樹的例項程式碼

分享給大家一篇文章，教你怎樣用Python畫了一棵聖誕樹，快來學習。如何用Python畫一個聖誕樹呢？

python對輸出的奇數偶數排序例項程式碼

我們從小學的時候就學習了奇數偶數，知道整數可以分成奇數和偶數兩大類，能被2整除的數叫做偶數，不能被2整除的數叫做奇數。在我們python程式設計中，會遇到很多數字和程式碼，有的時候會很亂，不好操作。

python自動從arxiv下載paper的示例程式碼

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time: 2020/02/11 21:44 # @Author : dangxusheng # @Email: [email protected]

詳解python 條件語句和while迴圈的例項程式碼

02條件語句和while迴圈三目運算 a = 6 #原判斷語句 if a > 5: print(True) else: print(False)

python實現無邊框進度條的例項程式碼

上python課程時需要設計一個系統，想著為系統加一個啟動動畫，所以做成了圖片加進度條的形式。

python實現檔案+引數傳送request的例項程式碼

需求：　　該介面，含兩個引數，一個是file，一個是paperName。其中file為上傳的檔案。content-type為form-data。

python入門遊戲之井字棋例項程式碼

井字棋簡介井字棋又稱三子棋，英文名為Tic Tac Toe。具體玩法為在一個3x3的棋盤上，一個玩家用X做棋子，另一個玩家用O做棋子，誰先在棋盤上的一行、一列或對角線上畫滿三個棋子，即可獲勝，如果棋盤下滿無人勝出，

python的等深分箱例項

背景當前很多文章嘗試過最優分箱，python上也有cut等方法進行等寬分箱。為了方便日後輸出結果以及分箱要求。做一個簡單的輪子以供大家日後使用。很多能用其他輪子的地方也沒有多餘出力，也不託大會比別人寫的好。空

使用python 計算百分位數實現資料分箱程式碼

對於百分位數，相信大家都比較熟悉，以下解釋源引自百度百科。百分位數，如果將一組資料從小到大排序，並計算相應的累計百分位，則某一百分位所對應資料的值就稱為這一百分位的百分位數。可表示為：一組n個觀測值按

python-視訊分幀&多幀合成視訊例項

我就廢話不多說了，直接上程式碼吧！ 1.視訊分幀： import cv2 vidcap = cv2.VideoCapture(\'005.avi\')

python實現連續變數最優分箱詳解--CART演算法

關於變數分箱主要分為兩大類：有監督型和無監督型對應的分箱方法： A. 無監督：(1) 等寬 (2) 等頻 (3) 聚類

python自動分箱,計算woe,iv的例項程式碼

相關推薦