pandas之分組聚合(agg,apply)

阿新 • • 發佈：2020-09-18

Pandas分組聚合 - 高階

自定義聚合方式

在分組聚合的split-apply-combine過程中，apply是核心。Python 本身有高階函式 apply() 來實現它

自定義聚合方式：aggregate()，或agg()

之前的聚合方式，所有列只能應用一個相同的聚合函式

agg()自定義聚合方式的優勢：

聚合引數是列表
    對資料每列應用多個相同的聚合函式
聚合引數是字典
    對資料的每列應用一個或多個不同的聚合函式
聚合引數是自定義函式
    對資料進行一些複雜的操作
agg 方法將一個函式使用在一個數列上，然後返回一個標量的值。也就是說agg每次傳入的是一列資料，對其聚合後返回標量

自定義聚合方式可以：

每個列應用不同的聚合方式
一個列應用多個聚合方式

df = pd.DataFrame({
    'name': ['張三','李四','王五','李四','王五','王五','趙六'],
    'chinese': [18, 53, 67, 63, 59, 70, 94],
    'math': [82, 63, 41, 59, 46, 39, 58],
    'english': [68, 52, 80, 86, 60, 98, 64],
    'test': ['一','一','一','二','二','三','一']
})
# 使用自定義聚合方式實現
df.groupby('name').agg(sum)
#聚合引數是列表
df.groupby('name').agg([sum, 'mean', np.min])  # 列表引數函式可以有多種不同寫法：直接寫函式名（容易出錯），函式名寫成字串，ndarray陣列函式
# 將聚合列索引改為自定義方式，元組實現
df.groupby('name')['chinese', 'math'].agg([('求和', sum), ('平均值', 'mean'), ('最小值', min)])
# 語文列聚合函式：求和
df.groupby('name').agg({'chinese': sum})
# 選中的多個列，每列都應用不同的多個聚合函式
df.groupby('name').agg({'chinese': [sum, 'mean'], 'math': [np.min, np.max]})

聚合引數是自定義函式

用於一些較為複雜的聚合工作

自定義聚合函式要比系統自帶的、經過優化的函式慢得多。
因為在構造中間分組資料塊時存在非常大的開銷（函式呼叫、資料重排等）

def aaa(x):
    return x.max() - x.min()

df.groupby('name').agg(aaa)
# 匿名函式實現
df.groupby('name').agg(lambda x: x.max() - x.min())

#例：返回 DataFrame 某一列中 n 個最大值
# 定一個 top 函式，返回 DataFrame 某一列中 n 個最大值
def top(df, n=2, column='chinese'):
    return df.sort_values(by=column, ascending=False)[:n]
# 自定義函式分組聚合引數
df.groupby('name').apply(top, n=1, column='math')

總結在學習apply函式用法時候，他是可以作用dataframe.series，所以
def bbb(x):
    return x['chinese'].mean() >= 60
df.groupby('name').agg(bbb)  # 報錯
df.groupby('name').apply(bbb)  # 返回seies
def bbb(x):
    return x.mean() >= 60
df.groupby('name').agg(bbb)  # 返回datafrmae布林值
df.groupby('name').apply(bbb)  # 返回dataframe布林值

過濾資料

例子：輸出所有語文考試平均分及格的資料

def bbb(x):
    return x.mean() >= 60

df.groupby('name').agg(bbb)  # 返回布林值
df.groupby('name').filter(bbb)
#輸出所有語文平均分及格的學生
df.groupby('name').filter(bbb).groupby('name').mean()

使用 transform 函式對所有的資料元素進行轉換計算

def ccc(x):
    return x + 10

df.groupby('name').transform(ccc)

# 使用向量化運算方式實現
df[['chinese', 'math', 'english']] + 10

pandas之分組聚合(agg,apply)

Pandas分組聚合 - 高階自定義聚合方式在分組聚合的split-apply-combine過程中，apply是核心。Python 本身有高階函式 apply() 來實現它

pandas之分組groupby()的使用整理與總結

前言在使用pandas的時候，有些場景需要對資料內部進行分組處理，如一組全校學生成績的資料，我們想通過班級進行分組，或者再對班級分組後的性別進行分組來進行分析，這時通過pandas下的groupby()函式就可以解決。在

pandas之分組groupby學習筆記

技術標籤：pandas問題python 分組 In [1]: import numpy as np In [2]: import pandas as pd 一、分組模式及其物件

盤點一道Pandas中分組聚合groupby()函式用法的基礎題

大家好，我是皮皮。一、前言前幾天在Python最強王者交流群有個叫【Chloé】的粉絲問了一個關於Pandas中groupby函式的問題，這裡拿出來給大家分享下，一起學習。

16-Pandas資料分組的函式應用（apply()、agg()和transform()、applymap()）

將自己定義的或其他庫的函式應用於Pandas物件，有以下3種方法： apply()：逐行或逐列應用該函式

5-Pandas資料分組的函式應用（df.apply()、df.agg()和df.transform()、df.applymap()）

將自己定義的或其他庫的函式應用於Pandas物件，有以下3種方法： apply()：逐行或逐列應用該函式

pandas分組聚合詳解

一前言 pandas學到分組迭代，那麼基礎的pandas系列就學的差不多了，自我感覺不錯，知識追尋者用pandas處理過一些資料，蠻好用的；

15-pandas之陣列分組的基本方法（分組大小與排序、迭代、指定組或列）

若（）資料分組的基本方法有3種：分組大小和分組排序對分組進行迭代選擇指定組或指定的列

Pandas之groupby分組

釋義 groupby用來分組，呼叫groupby 之後返回pandas.core.groupby.generic.DataFrameGroupBy，其實就是由一個個格式為(key, 分組後的dataframe)的元組，組成的列表：

pandas之聚合函式

在《Python Pandas視窗函式》一節，我們重點介紹了視窗函式。我們知道，視窗函式可以與聚合函式一起使用，聚合函式指的是對一組資料求總和、最大值、最小值以及平均值的操作，本節重點講解聚合函式的應用。

Pandas之read_csv()讀取檔案跳過報錯行的解決

讀取檔案時遇到和列數不對應的行，此時會報錯。若報錯行可以忽略，則新增以下引數:

Django分組聚合查詢例項分享

多表查詢 1. 增刪改一對多：先一後多，外來鍵可以為物件或依賴表的主鍵（publish and book)

pandas之表格樣式

在juoyter notebook中直接通過df輸出DataFrame時，顯示的樣式為表格樣式，通過sytle可對錶格的樣式做一些定製，類似excel的條件格式。

MySQL之分組查詢（DQL）

分組函式介紹：　　分組函式作用於一組資料，並對一組資料返回一個值，用作統計使用，又稱為聚合函式或統計函式或組函式。

5-Pandas之常用的描述性統計函式、彙總函式

常用的描述性統計函式函式作用函式作用 count 非缺失樣本的數量 sum 求和 mean 均值

6-Pandas之缺失值處理

一、瞭解缺失值通常使用 NA(\'not available\')來代指缺失值在Pandas的資料結構中，缺失值使用 NaN(\'Not a Number\')進行標識

7-Pandas之索引調整方法

一、調整索引、修改列標籤 1、調整索引的兩種情況：重新索引設定新的索引（1）重新索引

Pandas之檔案的讀取和寫出

讀與寫 pandas是基於NumPy的一種資料分析工具，在資料分析的任務中，我們首先需要對資料進行清洗和編輯等工作，pandas庫大大簡化了我們的工作量。

12-Pandas之離散化、面元劃分（等距cut()、等頻pcut())）

　　有時在處理連續型資料時，為了方便分析，需要將其進行離散化或者是拆分成“面元(bin)”，即將資料放置於一個小區間中。

pandas之資料重塑與透視

資料重塑與透視 •資料重塑資料重塑表示轉換一個表格或者向量的結構，使其適合於進一步的分析。

pandas之分組聚合(agg,apply)

Pandas分組聚合 - 高階

自定義聚合方式

agg()自定義聚合方式的優勢：

聚合引數是自定義函式

過濾資料

使用 transform 函式對所有的資料元素進行轉換計算

相關推薦