基於python 等頻分箱qcut問題的解決

阿新 • • 發佈：2020-03-04

在python 較新的版本中，pandas.qcut()這個函式中是有duplicates這個引數的，它能解決在等頻分箱中遇到的重複值過多引起報錯的問題；

在比較舊版本的python中，提供一下解決辦法：

import pandas as pd
 
def pct_rank_qcut(series,n):
  '''
  series：要分箱的列
  n：箱子數
  '''
  edages = pd.series([i/n for i in range(n)] # 轉換成百分比
  func = lambda x: (edages >= x).argmax() #函式：(edages >= x)返回fasle/true列表中第一次出現true的索引值
  return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每個值對應的百分位數，最終返回對應的組數;rank()函式傳入的資料型別若為object，結果會有問題，因此進行了astype

補充拓展：Python資料離散化:等寬及等頻

在處理資料時，我們往往需要將連續性變數進行離散化，最常用的方式便是等寬離散化，等頻離散化，在此處我們討論離散化的概念，只給出在python中的實現以供參考

1. 等寬離散化

使用pandas中的cut()函式進行劃分

import numpy as np
import pandas as pd
 
# Discretization: Equal Width #
# Datas: Sample * Feature
def Discretization_EqualWidth(K,Datas,FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  for i in range(FeatureNumber):
    DisOneFeature = pd.cut(Datas[:,i],K,labels=range(1,K+1))
    DisDatas[:,i] = DisOneFeature
  return DisDatas

2. 等頻離散化

pandas中有qcut()可以使用，但是邊界易出現重複值，如果為了刪除重複值設定 duplicates=‘drop'，則易出現於分片個數少於指定個數的問題，因此在此處不使用qcut()

import numpy as np
import pandas as pd
 
# Discretization: Equal Frequency #
# vector: single feature
def Rank_qcut(vector,K):
  quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values
  funBounder = lambda x: (quantile >= x).argmax()
  return vector.rank(pct=True).apply(funBounder)
 
# Discretization: Equal Frequency #
# Datas: Sample * Feature
def Discretization_EqualFrequency(K,FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  w = [float(i) / K for i in range(K + 1)]
  for i in range(FeatureNumber):
    DisOneFeature = Rank_qcut(pd.Series(Datas[:,i]),K)
    #print(DisOneFeature)
    DisDatas[:,i] = DisOneFeature
  return DisDatas

以上這篇基於python 等頻分箱qcut問題的解決就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

基於python 等頻分箱qcut問題的解決

在python 較新的版本中，pandas.qcut()這個函式中是有duplicates這個引數的，它能解決在等頻分箱中遇到的重複值過多引起報錯的問題；

python的等深分箱例項

背景當前很多文章嘗試過最優分箱，python上也有cut等方法進行等寬分箱。為了方便日後輸出結果以及分箱要求。做一個簡單的輪子以供大家日後使用。很多能用其他輪子的地方也沒有多餘出力，也不託大會比別人寫的好。空

python 基於卡方值分箱演算法的實現示例

原理很簡單，初始分20箱或更多，先確保每箱中都含有0，1標籤，對不包含0，1標籤的箱向前合併，計算各箱卡方值，對卡方值最小的箱向後合併，程式碼如下

python自動分箱,計算woe,iv的例項程式碼

筆者之前用R開發評分卡時，需要進行分箱計算woe及iv值，採用的R包是smbinning,它可以自動進行分箱。近期換用python開發，也想實現自動分箱功能，找到了一個woe包，地址https://pypi.org/project/woe/，可以直接 pip

python實現連續變數最優分箱詳解--CART演算法

關於變數分箱主要分為兩大類：有監督型和無監督型對應的分箱方法： A. 無監督：(1) 等寬 (2) 等頻 (3) 聚類

基於python cut和qcut的用法及區別詳解

我就廢話不多說了，直接上程式碼吧： from pandas import Series,DataFrame import pandas as pd

python實現二分類的卡方分箱示例

解決的問題： 1、實現了二分類的卡方分箱； 2、實現了最大分組限定停止條件，和最小閾值限定停止條件；

使用python 計算百分位數實現資料分箱程式碼

對於百分位數，相信大家都比較熟悉，以下解釋源引自百度百科。百分位數，如果將一組資料從小到大排序，並計算相應的累計百分位，則某一百分位所對應資料的值就稱為這一百分位的百分位數。可表示為：一組n個觀測值按

基於python 凸包問題的解決

最近在看python的演算法書，之前在年前買的書，一直在工作間隙的時候，學習充電，終於看到這本書，但是確實又有點難，感覺作者寫的程式碼太炫技了，有時候註釋也不怎麼能看懂，終於想到一個方法，就是裡面說的演算法

Python 基於Python生成短8位唯一id解決方案

基於Python生成短8位唯一id解決方案 by:授客 QQ：1033553122 測試環境： Win10 Python 3.5.4

基於Python+requests+Excel資料驅動的介面自動化測試中解決介面間資料依賴

在實際的測試工作中，在做介面自動化過程中往往會遇到介面間資料依賴問題，即API_03的請求引數來源與API_02的響應資料，API_02的請求引數又來源與API_01的響應資料，因此通過自動化方式測試API_03介面時，需要預先請

基於python中jieba包的中文分詞中詳細使用之一

基於python中jieba包的中文分詞中詳細使用（一） 01.前言之前的文章中也是用過一些jieba分詞但是基本上都是處於皮毛，現在就現有的python環境中對其官方文件做一些自己的理解以及具體的介紹。本文主要內容也是從官網

壓縮包密碼忘記了打不開？我用Python分分鐘就解決了

相信大家都遇到過這種情況，下載檔案的時候遇到壓縮包又沒有密碼，或者說自己設定的加密密碼，但是忘記了，就很難受~

python-pandas.cut()資料分箱

在對資料處理的過程中，經常會用到對不同閾值的資料貼上不同的標籤，或者將連續資料轉換成分類資料，pandas中的cut函式可以較好解決資料劃分不同標籤問題。

iOS Audio hand by hand: 變聲，混響，語音合成 TTS，Swift5，基於 AVAudioEngine 等

AVAudioEngine 比 AVAudioPlayer 更加強大，當然使用上比起 AVAudioPlayer 繁瑣。 AVAudioEngine 對於Core Audio作了一些使用上的封裝簡化，簡便的做了一些音訊訊號的處理。

MySQL limit使用方法以及超大分頁問題解決

前言日常開發中,我們使用mysql來實現分頁功能的時候,總是會用到mysql的limit語法.而怎麼使用卻很有講究的,今天來總結一下.

基於python的mysql複製工具詳解

一簡介 python-mysql-replication 是基於python實現的 MySQL複製協議工具，我們可以用它來解析binlog 獲取日誌的insert，update，delete等事件，並基於此做其他業務需求。比如資料更改時失效快取，監聽dml事件通知

基於Python的SQL Server資料庫實現物件同步輕量級

緣由日常工作中經常遇到類似的問題：把某個伺服器上的某些指定的表同步到另外一臺伺服器。

基於python+selenium的二次封裝的實現

這是個人對selenium.webdriver寫的一些常用操作的二次封裝，也就相當於重寫了，不再使用自帶的框架，用自己寫的框架完成。這樣的話使程式碼更簡潔，用自己的思想完成程式碼的編寫。

基於python實現檔案加密功能

這篇文章主要介紹了基於python實現檔案加密功能,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下