12-Pandas之離散化、面元劃分（等距cut()、等頻pcut())）

阿新 • • 發佈：2020-07-30

　　有時在處理連續型資料時，為了方便分析，需要將其進行離散化或者是拆分成“面元(bin)”，即將資料放置於一個小區間中。

　　在Pandas中,cut()--->資料離散化

　　　　　　　 qcut()-->面元劃分

一、cut()：等距離散化，設定的bins的每個區間的間隔相等。

　　與排序與隨機重排中採用同樣的例子，即“新冠肺炎”的例子。

　　此時對累計確診那一列進行操作，首先檢視其最大值和最小值，便於瞭解將資料劃分為多少個組別：在此將資料劃分7個組別，如下：

>>> df['total_confirm'].max()
677146
>>> df['total_confirm'].min()
1
>>> bins = [0,10000,20000,30000,40000,50000,60000,70000]
>>> pd.cut(df['total_confirm'],bins)[:8]
0        (0.0, 10000.0]
1        (0.0, 10000.0]
2                   NaN
3    (10000.0, 20000.0]
4        (0.0, 10000.0]
5        (0.0, 10000.0]
6    (10000.0, 20000.0]
7        (0.0, 10000.0]
Name: total_confirm, dtype: category
Categories (7, interval[int64]): [(0, 10000] < (10000, 20000] < (20000, 30000] < (30000, 40000] <
                                  (40000, 50000] < (50000, 60000] < (60000, 70000]]

　　通過labels引數可以將這些區間換成其他的字串

>>> pd.cut(df['total_confirm'],bins=bins,labels=['A','B','C','D','E','F','G'])[:8]
0      A
1      A
2    NaN
3      B
4      A
5      A
6      B
7      A
Name: total_confirm, dtype: category
Categories (7, object): [A < B < C < D < E < F < G]

二、qcut()：等頻離散化，每個區間的樣本數相同。

#分成8個等頻區間
>>> bs = pd.qcut(df['total_confirm'],8)[:5]
>>> bs = pd.qcut(df['total_confirm'],8)
>>> bs[:5]
0         (380.5, 979.5]
1     (2720.75, 8321.25]
2    (8321.25, 677146.0]
3    (8321.25, 677146.0]
4       (979.5, 2720.75]
Name: total_confirm, dtype: category
Categories (8, interval[float64]): [(0.999, 12.0] < (12.0, 35.0] < (35.0, 122.375] <
                                    (122.375, 380.5] < (380.5, 979.5] < (979.5, 2720.75] <
                                    (2720.75, 8321.25] < (8321.25, 677146.0]]

#檢視每個區間的樣本數
>>> bs.value_counts()
(0.999, 12.0]          28
(8321.25, 677146.0]    26
(979.5, 2720.75]       26
(2720.75, 8321.25]     25
(380.5, 979.5]         25
(122.375, 380.5]       25
(12.0, 35.0]           25
(35.0, 122.375]        24
Name: total_confirm, dtype: int64

從每個區間的樣本數可以發現，每個區間的樣本數挺不是完全相等的，所以：此處的等頻真正的含義是每個區間的數量並不是理想中的等量，而是大致等量。

12-Pandas之離散化、面元劃分（等距cut()、等頻pcut())）

　　有時在處理連續型資料時，為了方便分析，需要將其進行離散化或者是拆分成“面元(bin)”，即將資料放置於一個小區間中。

關於pandas的離散化,面元劃分詳解

pd.cut pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False) x：要分箱的輸入陣列，必須是一維的

Pandas資料離散化原理及例項解析

這篇文章主要介紹了Pandas資料離散化原理及例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

風火程式設計--pandas資料離散化處理cut()

技術標籤：python應用pandas離散化 pandas進行資料離散化 list_bins = [0, 100000, 500000, 1000000000000]

小米手機公佈雙 12 優惠活動：MIX 4 4199 元起，還贈禮盒、藍芽耳機

12 月 5 日訊息，今日小米公佈了 2021 年雙 12 活動的手機優惠計劃。本次小米為 5 款以上手機提供優惠活動，使用者前往小米之家購買，不僅能夠享受折扣，還有機會獲贈禮盒、藍芽耳機，還可以選擇分期免息福利。以下

量化交易之python篇 - 讀取、解析、存入json檔案（新增類屬性、合約模型類、持倉模型類）

技術標籤：python import json import math """ 處理異常的裝飾器類 """

補新券：雀巢 KitKat 白巧威化 8.8 元/盒（京東 29 元）

68% 綠茶白巧克力：雀巢奇巧威化抹茶味 139g 日常 4 盒售價 99.9 元，今日可領 65 元衝量券，實付 34.9 元 + 冰袋配送：天貓 KitKat 雀巢抹茶威化 4 盒 68% 巧克力 + 32% 威化券後 34.9 元領 65 元券摺合 8.8 元/盒（

男人的衣櫃裡還有啥：海瀾之家男士牙膏 10 元/支（三重優惠）

【海瀾之家旗下男士個護品牌：半自由】半自由清新牙膏 120g 售價 39.9 元，今日下單 3 件立減 54.8 元，可領 30 元大額券，實付 34.9 元包郵。淘金幣可抵扣 3.6 元，疊加後僅需 31.3 元，每支摺合 10.4 元近期好價：

七、DQL 資料查詢語言、select 高階用法（多表聯查，連表查詢）、字符集

一、DQL 資料查詢語言 1.select 簡單查詢命令 #1.查詢表中所有的資料mysql> select * from test.student;#2.檢視所有資料之前，先檢視資料量mysql> select count(*) from test.student;#3.查詢指定列mysql

十一、Linux shell指令碼（IP訪問禁用與使用者賦權）

1.編寫指令碼/root/bin/checkip.sh，每5分鐘檢查一次，如果發現通過ssh登入失敗次數超過10次，自動將此遠端IP放入Tcp Wrapper的黑名單中予以禁止防問

小米有品上市價249元：90分機能揹包69元新低（400D抗撕裂面料+EVA減震背板）

400D抗撕裂面料+EVA減震背板：90分全天候機能揹包報價249元，限時限量180元券，實付69元包郵：天貓90分全天候機能揹包400D抗撕裂面料+EVA減震背板券後69元領180元券90分全天候機能揹包，小米有品上市售價249元，現

多執行緒進階JUC之排它鎖和共享鎖（使用重用讀寫鎖ReentrantReadWriteLock類）

技術標籤：Java面試多執行緒多程序讀寫鎖騰訊文件共享協作可讀可寫許可權。如何實現多人寫？即不加寫鎖？

資料預處理--缺失值判斷和處理（刪除發、插補法（均值插補、熱平臺插補））

資料預處理 1 資料集載入這裡使用mice軟體包下的nhanes2資料集進行演示，這是一個含有缺失值的小規模資料集。

BFC處理的典型問題（外邊距合併、高度坍塌）

首先來看看什麼是BFC，BFC 全稱為塊格式化上下文 (Block Formatting Context) 。是Web頁面的視覺化CSS渲染的一部分，是塊盒子的佈局過程發生的區域，也是浮動元素與其他元素互動的區域。

阿里雲盤開啟擴容收費測試：200GB 售價 108 元 / 年（更新：僅為領券測試）

感謝網友拾年花開、tyhguan 的線索投遞！

控制演算法的劃分（自適應控制、預測控制、模糊控制等，PID等；蟻群演算法、神經網路，還有機器學習、人工智慧中的很多方法）

　一般來說，控制器的設計，分為控制框架的選取，跟引數的優化。自適應控制、預測控制、模糊控制等，跟PID一樣，是控制演算法（我習慣稱為控制框架）。

java類載入之初始化過程（附面試題）

類或介面的初始化過程就是執行它們的初始化方法<clinit>。這個方法是由編譯器在編譯的時候生成到class檔案中的，包含類靜態field賦值指令和靜態語句塊（static{}）中的程式碼指令兩部分，順序和原始碼中的順序

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

5-Pandas之常用的描述性統計函式、彙總函式

常用的描述性統計函式函式作用函式作用 count 非缺失樣本的數量 sum 求和 mean 均值

15-pandas之陣列分組的基本方法（分組大小與排序、迭代、指定組或列）

若（）資料分組的基本方法有3種：分組大小和分組排序對分組進行迭代選擇指定組或指定的列

12-Pandas之離散化、面元劃分（等距cut()、等頻pcut())）

一、cut()：等距離散化，設定的bins的每個區間的間隔相等。

二、qcut()：等頻離散化，每個區間的樣本數相同。

相關推薦