使用pandas實現連續資料的離散化處理方式(分箱操作)

阿新 • • 發佈：2020-01-09

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料量是相同的。

下面簡單介紹一下這兩個函式的用法：

# 匯入pandas包
import pandas as pd
ages = [20,22,25,27,21,23,37,31,61,45,41,32] # 待分箱資料
bins = [18,35,60,100] # 指定箱子的分界點

pandas.cut函式：

cats1 = pd.cut(ages,bins)
cats1

cats1結果：

[(18,25],(18,(25,35],...,(60,100],(35,60],35]]
Length: 12
Categories (4,interval[int64]): [(18,25] < (25,35] < (35,60] < (60,100]]
# labels引數為False時，返回結果中用不同的整數作為箱子的指示符
cats2 = pd.cut(ages,bins,labels=False) 
cats2 # 輸出結果中的數字對應著不同的箱子

cats2結果：

 array([0,1,2,3,1],dtype=int64)
pd.value_counts(cats1) # 對不同箱子中的數進行計數

計數結果：

(18,25]  5
(35,60]  3
(25,35]  3
(60,100] 1
dtype: int64
pd.cut(ages,[18,26,36,right=False) # 指定分箱區間是左閉右開

改變區間開閉結果：

[[18,26),[26,36),[61,100),[36,61),36)]
Length: 12
Categories (4,interval[int64]): [[18,26) < [26,36) < [36,61) < [61,100)]
# 可以將想要指定給不同箱子的標籤傳遞給labels引數
group_names = ['Youth','YoungAdult','MiddleAged','Senior']
cuts3 = pd.cut(ages,labels=group_names) 
cuts3

cats3結果：

[Youth,Youth,YoungAdult,Senior,MiddleAged,YoungAdult]
Length: 12
Categories (4,object): [Youth < YoungAdult < MiddleAged < Senior]

pandas.qcut函式：

qcats1 = pd.qcut(ages,q=4) # 引數q指定所分箱子的數量
qcats1

qcats1結果：

[(19.999,22.75],(19.999,(22.75,29.0],(29.0,38.0],(38.0,61.0],38.0]]
Length: 12
Categories (4,interval[float64]): [(19.999,22.75] < (22.75,29.0] < (29.0,38.0] <
(38.0,61.0]]
qcats1.value_counts() # 從輸出結果可以看到每個箱子中的資料量時相同的

計數結果：

(19.999,22.75] 3
(22.75,29.0]  3
(29.0,38.0]  3
(38.0,61.0]  3
dtype: int64

參考：《利用Python進行資料分析》——Wes McKinney 第二版

以上這篇使用pandas實現連續資料的離散化處理方式(分箱操作)就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

風火程式設計--pandas資料離散化處理cut()

技術標籤：python應用pandas離散化 pandas進行資料離散化 list_bins = [0, 100000, 500000, 1000000000000]

pandas實現匯出資料的四種方式

本文主要介紹了pandas匯出資料到檔案的四種方式，分享給大家，主要也是給自己留個筆記，具體如下：

使用離散化處理連續資料(UVa221,UVa12171)

有時我們需要處理的資料是連續的，比如時間，距離，座標等等。這時需要用到離散化。

Pandas資料離散化原理及例項解析

這篇文章主要介紹了Pandas資料離散化原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

pandas函式cut函式連續變數離散化

技術標籤：pythonpython資料分析 pandas函式cut函式連續變數離散化一、專案背景在金融風控中，金融公司經常會對外部三方資料進行測試。外部三方資料是指資料公司依據自有資料或者其他方式獲取到的資料建立的風

pandas中read_csv的缺失值處理方式

今天遇到的問題是，要將一份csv資料讀入dataframe，但某些列中含有NA值。對於這些列來說，NA應該作為一個有意義的level，而不是缺失值，但read_csv函式會自動將類似的缺失值理解為缺失值並變為NaN。

Python資料視覺化處理庫PyEcharts柱狀圖,餅圖,線性圖,詞雲圖常用例項詳解

python可以在處理各種資料時，如果可以將這些資料，利用圖表將其視覺化，這樣在分析處理起來，將更加直觀、清晰，以下是利用 PyEcharts 常用圖表的視覺化Demo,開發環境 python3

專案初始化、元件資料區域性化處理、子元件、父元件、路由邏輯跳轉、元件傳參、元件的生命週期鉤子、路由傳、全域性配置自定義css與js、

```python\"\"\"1）路由：邏輯跳轉、路由傳參2）專案元件的資料區域性化處理：data: {} => data: function(){ return {} } => data(){ return{} }3）元件的宣告週期4）元件間通訊5）各種第三方外掛：vuex、axi

基於資訊熵的資料離散化

1、準備資料基於資訊熵的資料離散化演算法是由監督學習演算法，在使用該方法對資料進行離散化時，需要資料有對應的標籤。

xgboost 資料不平衡處理方式

在對不平衡資料進行訓練時，通常會考慮一下怎麼處理不平衡資料能使訓練出來的結果較好。能想到的比較基礎的方法是過取樣和下采樣來緩解資料中的正負樣本比。

Python爬取北京地區蛋殼公寓資料，並進行資料視覺化處理

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取招聘網站資料並做資料視覺化處理

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Java基礎進階:時間類要點摘要,時間Date類實現格式化與解析原始碼實現詳解,LocalDateTime時間類格式化與解析原始碼實現詳解,Period,Duration獲取時間間隔與原始碼實現,程式異常解析與處理方式

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　要點摘要

Python+Flourish實現簡單資料視覺化

開啟百度首頁，登入後，找到 www.baidu.com 此條 GET 請求，並複製此條請求 request headers 裡的 cookies

連續變數離散化的原因

一直淺意識知道，但是講不清楚，捋順了連續變數為啥要進行離散化參考：https://www.cnblogs.com/wqbin/p/11087162.html

阿里巴巴非同步化處理方式

非同步化與快取兩個技術都與系統的效能有很大的關係，當今分散式應用架構中，如果不能很好地掌握這兩項技術，所設計出的應用將很難有優質的效能表現。本章將介紹阿里集團是如何使用這兩種技術的。

介面測試之請求資料與斷言資料引數化處理

# -*- coding:utf8 -*- import pytest import json import os from common.my_requests import MyRequests from common.my_excel import MyExcel

解題報告（離散化處理字首和類問題）

在談到離散化之前，可以從簡單的字首和問題上入手，來理解離散化處理問題的精妙

用LightningChart JS實現Javascript資料視覺化

LightningChart JS不需要任何額外的技巧，就能輕鬆地產生一個具有即時縮放互動功能的熱圖圖表。還有我們的社群許可證對非商業和研究目的是100%免費的。

使用pandas實現連續資料的離散化處理方式(分箱操作)

相關推薦