python 基於卡方值分箱演算法的實現示例

阿新 • • 發佈：2020-07-20

原理很簡單，初始分20箱或更多，先確保每箱中都含有0，1標籤，對不包含0，1標籤的箱向前合併，計算各箱卡方值，對卡方值最小的箱向後合併，程式碼如下

import pandas as pd
import numpy as np
import scipy
from scipy import stats
def chi_bin(DF,var,target,binnum=5,maxcut=20):
  '''
  DF:data
  var:variable
  target:target / label
  binnum: the number of bins output
  maxcut: initial bins number 
  '''
  
  data=DF[[var,target]]
  #equifrequent cut the var into maxcut bins
  data["cut"],breaks=pd.qcut(data[var],q=maxcut,duplicates="drop",retbins=True)
  #count 1,0 in each bin
  count_1=data.loc[data[target]==1].groupby("cut")[target].count()
  count_0=data.loc[data[target]==0].groupby("cut")[target].count()
  #get bins value: min,max,count 0,count 1
  bins_value=[*zip(breaks[:maxcut-1],breaks[1:],count_0,count_1)]
  #define woe
  def woe_value(bins_value):
    df_woe=pd.DataFrame(bins_value)
    df_woe.columns=["min","max","count_0","count_1"]
    df_woe["total"]=df_woe.count_1+df_woe.count_0
    df_woe["bad_rate"]=df_woe.count_1/df_woe.total
    df_woe["woe"]=np.log((df_woe.count_0/df_woe.count_0.sum())/(df_woe.count_1/df_woe.count_1.sum()))
    return df_woe
  #define iv
  def iv_value(df_woe):
    rate=(df_woe.count_0/df_woe.count_0.sum())-(df_woe.count_1/df_woe.count_1.sum())
    iv=np.sum(rate * df_woe.woe)
    return iv
  #make sure every bin contain 1 and 0
  ##first bin merge backwards
  for i in range(len(bins_value)):
    if 0 in bins_value[0][2:]:
      bins_value[0:2]=[(
        bins_value[0][0],bins_value[1][1],bins_value[0][2]+bins_value[1][2],bins_value[0][3]+bins_value[1][3])]
      continue
  ##bins merge forwards
    if 0 in bins_value[i][2:]:
      bins_value[i-1:i+1]=[(
        bins_value[i-1][0],bins_value[i][1],bins_value[i-1][2]+bins_value[i][2],bins_value[i-1][3]+bins_value[i][3])]
      break
    else:
      break
  
  #calculate chi-square merge the minimum chisquare    
  while len(bins_value)>binnum:
    chi_squares=[]
    for i in range(len(bins_value)-1):
      a=bins_value[i][2:]
      b=bins_value[i+1][2:]
      chi_square=scipy.stats.chi2_contingency([a,b])[0]
      chi_squares.append(chi_square)
  #merge the minimum chisquare backwards
    i = chi_squares.index(min(chi_squares))
               
    bins_value[i:i+2]=[(
      bins_value[i][0],bins_value[i+1][1],bins_value[i][2]+bins_value[i+1][2],bins_value[i][3]+bins_value[i+1][3])]
    
    df_woe=woe_value(bins_value)
    
  #print bin number and iv
    print("箱數：{},iv:{:.6f}".format(len(bins_value),iv_value(df_woe)))
  #return bins and woe information 
  return woe_value(bins_value)

以下是效果：

初始分成10箱，目標為3箱

chi_bin(data,"age","SeriousDlqin2yrs",binnum=3,maxcut=10)

箱數：8,iv:0.184862
箱數：7,iv:0.184128
箱數：6,iv:0.179518
箱數：5,iv:0.176980
箱數：4,iv:0.172406
箱數：3,iv:0.160015
minmaxcount_0count_1totalbad_ratewoe
00.052.0702937077773700.091470-0.266233
152.061.0293181774310920.0570560.242909
261.072.026332865271970.0318050.853755

到此這篇關於python 基於卡方值分箱演算法的實現示例的文章就介紹到這了,更多相關python 卡方值分箱演算法內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python 基於卡方值分箱演算法的實現示例

連續性特徵(變數)如何計算卡方值

Say you have one feature and a target with 3 possible values X = np.array([3.4, 3.4, 3. , 2.8, 2.7, 2.9, 3.3, 3. , 3.8, 2.5])

python 基於dlib庫的人臉檢測的實現

本週暫時比較清閒，可以保持每日一更的速度。國外身份證專案新增需求，檢測出身份證正面的人臉。最開始考慮mobilenet-ssd，經同事提醒，有現成的人臉庫dlib，那就用傳統方法嘗試一下。

Python基於Dlib的人臉識別系統的實現

之前已經介紹過人臉識別的基礎概念，以及基於opencv的實現方式，今天，我們使用dlib來提取128維的人臉嵌入，並使用k臨近值方法來實現人臉識別。

【PHP】php 基於redis使用令牌桶演算法實現流量控制

整理自： https://www.cnblogs.com/itbsl/p/13407489.html https://www.cnblogs.com/myJuly/p/13608475.html

基於超級瑪麗的PPO演算法實現【TF 2.4】

技術標籤：RL強化學習tensorflow 文章目錄前言RL環境配置環境簡介自定義環境多程序資料取樣

基於SpringBoot專案MyBatis分頁外掛實現分頁總結

前言在使用Mybatis時，最頭痛的就是寫分頁了，需要先寫一個查詢count的select語句，然後再寫一個真正分頁查詢的語句，當查詢條件多了之後，會發現真的不想花雙倍的時間寫 count 和 select，幸好我們有 pagehelper

找出該樹中第二小的值--思路及演算法實現

　　在二叉樹中最重要的操作莫過於遍歷，即按照某一順序訪問樹中的所有節點。二叉樹的前序遍歷、中序遍歷、後序遍歷都有遞迴和迴圈兩種不同的實現方法。每種遍歷的遞迴實現都比迴圈實現要簡潔很多。下面分享一個關於

基於Redis的限流器的實現(示例講解)

1 概述系統中的介面通常都有限流，比如 70次/秒，如何保證我們的介面的呼叫次數在超過第三方介面限流的時候快速失敗呢？這時候就需要限流器了。下面是筆者用redis實現限流器的流程圖。

使用python程式碼進行身份證號校驗的實現示例

先說，還有很多可以優化的地方。 1、比如加入15位身份證號的校驗，嗯哼，15位的好像沒有校驗，那就只能提取個出生年月日啥的了。

Python 識別12306圖片驗證碼物品的實現示例

1、PIL介紹以及圖片分割 Python 3 安裝: pip3 install Pillow 1.1 image 模組 Image模組是在Python PIL影象處理中常見的模組，主要是用於對這個影象的基本處理，它配合open、save、convert、show…等功能使用。

如何利用python web框架做檔案流下載的實現示例

hello 大家好,前不久公司裡有個需求,把時序資料庫中的日誌下載到本地. 大家都知道. 資料庫裡的資料都是存在資料庫裡的(廢話). 想把他下載到客戶的本地. 有的同學第一反應是: 只有檔案才能下載. 所以大多數同學會想到

基於JavaScript的資料結構佇列動畫實現示例解析

###一摘要今天給大家介紹一個基於資料結構中的佇列的一個動畫,在實現這個動畫之前呢,還是給大家講講,在JavaScript中我們如何實現一個佇列.

python使用多執行緒查詢資料庫的實現示例

一.背景：當資料量過大時，一個程式的執行時間就會主要花費在等待單次查詢返回結果，在這個過程中cpu無疑是處於等待io的空閒狀態的，這樣既浪費了cpu資源，又花費了大量時間（當然這裡主要說多執行緒，批量查詢不在

Mybatis Plus整合PageHelper分頁的實現示例

Mapper Plus自帶分頁PaginationInterceptor物件，雖然說目前沒有什麼問題，並且使用簡單，但是個人感覺有個弊端：目前個人使用中，想要用Mapper Plus自帶的分頁功能的話需要在mapper物件中傳入一個Page物件才可以實現

python使用隱式迴圈快速求和的實現示例

如何快速的求出1到x的和呢？程式碼如下： NB(注意): # 後面的部分表示輸出結果。

python基礎教程python使用隱式迴圈快速求和的實現示例

更多python教程請到：菜鳥教程https://www.piaodoo.com/ 如何快速的求出1到x的和呢？程式碼如下：

基於vue的video播放器的實現示例

當現有video播放器不能滿足需求時，需要自己對video進行封裝。 video事件 loadstart: 在視訊開始載入時觸發，給currentTime賦值(歷史播放記錄或0)。

python實現連續變數最優分箱詳解--CART演算法

關於變數分箱主要分為兩大類：有監督型和無監督型對應的分箱方法： A. 無監督：(1) 等寬 (2) 等頻 (3) 聚類

python實現二分類的卡方分箱示例

解決的問題： 1、實現了二分類的卡方分箱； 2、實現了最大分組限定停止條件，和最小閾值限定停止條件；

python 基於卡方值分箱演算法的實現示例

相關推薦