Pandas之groupby分組

阿新 • • 發佈：2021-06-15

釋義

groupby用來分組，呼叫groupby 之後返回pandas.core.groupby.generic.DataFrameGroupBy，其實就是由一個個格式為(key, 分組後的dataframe)的元組，組成的列表：

[(key1, dataframe1), (key2, dataframe2), ...]

案例

初始化資料，此時這個班級有2個同名的人都叫Jack

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack'], 'stu_age': [16, 16, 15, 21]})
print(df)

  stu_name  stu_age
0      Tom       16
1     Tony       16
2     Jack       15
3     Jack       21

根據stu_name 進行分組，根據上面的釋義，則可以遍歷列表中的每個元組

groups = df.groupby(['stu_name'])
for v in groups:
    print(v)

('Jack',   stu_name  stu_age
2     Jack       15
3     Jack       21)
('Tom',   stu_name  stu_age
0      Tom       16)
('Tony',   stu_name  stu_age
1     Tony       16)

顯而易見，每個元素v中，v[0]是groupby的列名，v[1]就是該分組下的dataframe

groupby之後的聚合操作

groupby之後更常見的是使用各種聚合函式，如

min：最小值
max：最大值
sum：總和
mean：平均值
median：中位數
count：計數
var：方差
std：標準差

案例

初始化資料

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack'], 'stu_age': [16, 16, 15, 21], 'stu_score': [99, 1, 1, 0]})

  stu_name  stu_age  stu_score
0      Tom       16         99
1     Tony       16          1
2     Jack       15          1
3     Jack       21          0

以名字分組，並對分組後的年齡、成績求和（例子不具備顯示意義，僅做演示）

sum_df = df.groupby(['stu_name']).sum()
print(sum_df)

          stu_age  stu_score
stu_name                    
Jack           36          1
Tom            16         99
Tony           16          1

groupby之後直接呼叫聚合函式，會對所有的列進行聚合操作，但有些時候需要在分組後對多個列進行不同的聚合操作，比如groupby之後，年齡求和，分數求平均值，這時候就需要使用agg函式

groupby之後使用agg函式

沿用上面的原始資料，以名字分組，分組後年齡求和，成績求平均值

agg_df = df.groupby(['stu_name']).agg({'stu_age': 'sum', 'stu_score': 'mean'})
print(agg_df)

          stu_age  stu_score
stu_name                    
Jack           36        0.5
Tom            16       99.0
Tony           16        1.0

可以看出如果groupby後要對分組內所有的列都進行一樣的操作，那直接呼叫相關的聚合函式即可，如果是分組後不同的列進行不同的聚合操作，則可以直接採用agg函式。

Pandas之groupby分組

釋義 groupby用來分組，呼叫groupby 之後返回pandas.core.groupby.generic.DataFrameGroupBy，其實就是由一個個格式為(key, 分組後的dataframe)的元組，組成的列表：

15-pandas之陣列分組的基本方法（分組大小與排序、迭代、指定組或列）

若（）資料分組的基本方法有3種：分組大小和分組排序對分組進行迭代選擇指定組或指定的列

pandas之分組groupby()的使用整理與總結

前言在使用pandas的時候，有些場景需要對資料內部進行分組處理，如一組全校學生成績的資料，我們想通過班級進行分組，或者再對班級分組後的性別進行分組來進行分析，這時通過pandas下的groupby()函式就可以解決。在

pandas之分組groupby學習筆記

技術標籤：pandas問題python 分組 In [1]: import numpy as np In [2]: import pandas as pd 一、分組模式及其物件

pandas之分組聚合(agg,apply)

Pandas分組聚合 - 高階自定義聚合方式在分組聚合的split-apply-combine過程中，apply是核心。Python 本身有高階函式 apply() 來實現它

讀書記錄——pandas中的分組方法groupby（一）

技術標籤：人工智慧pythonpandas資料分析 pandas的group分組 1、第一個簡單案例 1）資料和依賴包準別

JAVA8 STREAM COLLECT GROUPBY分組例項解析

這篇文章主要介紹了JAVA8 STREAM COLLECT GROUPBY分組例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Pandas之read_csv()讀取檔案跳過報錯行的解決

讀取檔案時遇到和列數不對應的行，此時會報錯。若報錯行可以忽略，則新增以下引數:

pandas之表格樣式

在juoyter notebook中直接通過df輸出DataFrame時，顯示的樣式為表格樣式，通過sytle可對錶格的樣式做一些定製，類似excel的條件格式。

pandas 的groupby()

groupby(): groupby函式可以將一個df根據某一列或者某幾列分組又或者是函式分組，經過groupby後悔生成一個groupby物件，該物件本身不會返回任何內容，只有當相應的方法被呼叫時才會起作用

5-Pandas之常用的描述性統計函式、彙總函式

常用的描述性統計函式函式作用函式作用 count 非缺失樣本的數量 sum 求和 mean 均值

6-Pandas之缺失值處理

一、瞭解缺失值通常使用 NA(\'not available\')來代指缺失值在Pandas的資料結構中，缺失值使用 NaN(\'Not a Number\')進行標識

7-Pandas之索引調整方法

一、調整索引、修改列標籤 1、調整索引的兩種情況：重新索引設定新的索引（1）重新索引

Pandas之檔案的讀取和寫出

讀與寫 pandas是基於NumPy的一種資料分析工具，在資料分析的任務中，我們首先需要對資料進行清洗和編輯等工作，pandas庫大大簡化了我們的工作量。

12-Pandas之離散化、面元劃分（等距cut()、等頻pcut())）

　　有時在處理連續型資料時，為了方便分析，需要將其進行離散化或者是拆分成“面元(bin)”，即將資料放置於一個小區間中。

MapReduce之GroupingComparator分組（輔助排序、二次排序）

指對Reduce階段的資料根據某一個或幾個欄位進行分組。案例需求有如下訂單資料

pandas之資料重塑與透視

資料重塑與透視 •資料重塑資料重塑表示轉換一個表格或者向量的結構，使其適合於進一步的分析。

Pandas之Series的使用

熟悉pandas的兩個工具資料結構:Series和DataFrame Series Series是一種一維的陣列物件，它包含了一個值序列（與Numpy中的型別相似），並且包含了資料標籤，稱為索引（index）

Pandas之DataFrame的使用

（二）熟悉pandas的兩個工具資料結構:Series和DataFrame DataFrame DateFrame表示的是矩陣的資料表，它包含已排序的列集合，每一列可以是不同的值型別（數值，字串，布林值等）。它既有行索引也有列索引。

Pandas之資料規整清理

資料規整（資料預處理，資料清洗）資料規整的一般分類：清理轉換合併重塑

Pandas之groupby分組

釋義

案例

groupby之後的聚合操作

案例

groupby之後使用agg函式

相關推薦