Pandas GroupBy物件

阿新 • • 發佈：2018-12-10

建立GroupBy物件

GroupBy物件可以通過pandas.DataFrame.groupby(), pandas.Series.groupby()來建立。

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)[source]

Parameters:

by : mapping, function, str, or iterable
axis : int, default 0
level : int, level name, or sequence of such, default None(複合索引的時候指定索引層級)

as_index : boolean, default True(by列當成索引)
sort : boolean, default True(排序)
group_keys : boolean, default True(?)
squeeze : boolean, default False(?)

Returns:

GroupBy object

索引與迭代

屬性	描述
dict {group name -> group labels}
dict {group name -> group indices}
A Grouper allows the user to specify a groupby instruction for a target

函式應用（Function application）

函式應用經常結合numpy庫與lamda來使用

描述統計

資料框（DataFrame）與序列（Series）通用函式

Function	Describe
統計函式
GroupBy.sum()	計算每組的和
GroupBy.ohlc()	Compute sum of values, excluding missing values
GroupBy.cumcount([ascending])	Number each item in each group from 0 to the length of that group - 1.
GroupBy.mean(args, *kwargs)	均值，不包含缺失值
GroupBy.prod()	Compute prod of group values
GroupBy.var([ddof])	方差，不包含缺失值
GroupBy.std([ddof])	標準差，不包含缺失值
GroupBy.sem([ddof])	標準誤，不包含缺失值
描述函式
GroupBy.size()	組大小
GroupBy.count()	組元素個數，不包含缺失值
GroupBy.max()	組最大值
GroupBy.min()	組最小值
GroupBy.median()	組中間值
索引函式
GroupBy.first()	Compute first of group values
GroupBy.head([n])	Returns first n rows of each group.
GroupBy.last()	Compute last of group values
GroupBy.tail([n])	Returns last n rows of each group
GroupBy.nth(n[, dropna])	每組第n條資料

資料框（DataFrame）與序列（Series）不一致函式

Function	Describe
DataFrameGroupBy.agg(arg,?args,?*kwargs)	Aggregate using input function or dict of {column ->
DataFrameGroupBy.all([axis,?bool_only,?…])	Return whether all elements are True over requested axis
DataFrameGroupBy.any([axis,?bool_only,?…])	Return whether any element is True over requested axis
DataFrameGroupBy.bfill([limit])	Backward fill the values
DataFrameGroupBy.corr([method,?min_periods])	Compute pairwise correlation of columns, excluding NA/null values
DataFrameGroupBy.count()	Compute count of group, excluding missing values
DataFrameGroupBy.cov([min_periods])	Compute pairwise covariance of columns, excluding NA/null values
DataFrameGroupBy.cummax([axis,?skipna])	Return cumulative max over requested axis.
DataFrameGroupBy.cummin([axis,?skipna])	Return cumulative minimum over requested axis.
DataFrameGroupBy.cumprod([axis])	Cumulative product for each group
DataFrameGroupBy.cumsum([axis])	Cumulative sum for each group
DataFrameGroupBy.describe([percentiles,?…])	Generate various summary statistics, excluding NaN values.
DataFrameGroupBy.diff([periods,?axis])	1st discrete difference of object
DataFrameGroupBy.ffill([limit])	Forward fill the values
DataFrameGroupBy.fillna([value,?method,?…])	Fill NA/NaN values using the specified method
DataFrameGroupBy.hist(data[,?column,?by,?…])	Draw histogram of the DataFrame’s series using matplotlib / pylab.
DataFrameGroupBy.idxmax([axis,?skipna])	Return index of first occurrence of maximum over requested axis.
DataFrameGroupBy.idxmin([axis,?skipna])	Return index of first occurrence of minimum over requested axis.
DataFrameGroupBy.mad([axis,?skipna,?level])	Return the mean absolute deviation of the values for the requested axis
DataFrameGroupBy.pct_change([periods,?…])	Percent change over given number of periods.
DataFrameGroupBy.plot	Class implementing the .plot attribute for groupby objects
DataFrameGroupBy.quantile([q,?axis,?…])	Return values at the given quantile over requested axis, a la numpy.percentile.
DataFrameGroupBy.rank([axis,?method,?…])	Compute numerical data ranks (1 through n) along axis.
DataFrameGroupBy.resample(rule,?args,?*kwargs)	Provide resampling when using a TimeGrouper
DataFrameGroupBy.shift([periods,?freq,?axis])	Shift each group by periods observations
DataFrameGroupBy.size()	Compute group sizes
DataFrameGroupBy.skew([axis,?skipna,?level,?…])	Return unbiased skew over requested axis
DataFrameGroupBy.take(indices[,?axis,?…])	Analogous to ndarray.take
DataFrameGroupBy.tshift([periods,?freq,?axis])	Shift the time index, using the index’s frequency if available.

僅支援序列（Series）的函式

Function	Describe
SeriesGroupBy.nlargest(args,?*kwargs)	Return the largest?n?elements.
SeriesGroupBy.nsmallest(args,?*kwargs)	Return the smallest?n?elements.
SeriesGroupBy.nunique([dropna])	Returns number of unique elements in the group
SeriesGroupBy.unique()	Return np.ndarray of unique values in the object.
SeriesGroupBy.value_counts([normalize,?…])

僅支援資料框（DataFrame）的函式

Function	Describe
DataFrameGroupBy.corrwith(other[,?axis,?drop])	Compute pairwise correlation between rows or columns of two DataFrame objects.
DataFrameGroupBy.boxplot(grouped[,?…])	Make box plots from DataFrameGroupBy data.

Pandas GroupBy物件

建立GroupBy物件 GroupBy物件可以通過pandas.DataFrame.groupby(), pandas.Series.groupby()來建立。 DataFrame.groupby(by=None, axis=0, level=None, as_ind

Pandas GroupBy物件索引與迭代

import pandas as pd df = pd.DataFrame({'性別' : ['男', '女', '男', '女', '男', '女', '男', '男'],

pandas groupby 詳解

Name Brand Cloth Count girl uniql sweater 3 girl etam suit 1 girl etam pants 1 girl lagogo jacket 2 boy p

如何獲得 Pandas dataframe 物件的行數

You can use the .shape property or just len(DataFrame.index). However, there are notable performance differences ( len(DataFrame.i

Pandas 三大物件

1.pandas的Series物件 pandas的Series物件是一個帶索引資料構成的一維陣列。可以用一個數組建立Series物件 import pandas as pd data=pd.Series([0.25,0.5,0.75,1.0]) print(data)

pandas——groupby、agg，對錶格資料分組與統計

文章目錄 DataFrame 分組，並對分組進行迭代 1. 按key1（一個列）分組，其實是按key1的值 2. 按[key1, key2]（多個列）分組 3. 按函式分組 4. 按字典分組

python--學習筆記11 pandas groupby

-- class and ice 處理學習筆記 groupby import from 在沒有數據庫的情況下，可以用pandas進行簡單的分組函數處理情況。 import pandas as pd csv_data = pd.read_csv(‘E:\\sa

python處理數據的風騷操作[pandas 之 groupby&agg]

ebo 一段插入 date 模塊就會交互工具 1.3 3.x https://segmentfault.com/a/1190000012394176 介紹每隔一段時間我都會去學習、回顧一下python中的新函數、新操作。這對於你後面的工作是有一定好處的。本文重點介紹

python的pandas庫的sort_values、set_index、reset_index、cumsum、groupby函式的用法

import pandas as pd #sort_values()函式是按照選中索引所在列的原素進行排序 df=pd.DataFrame({'A':[3,1,1,6,7],'B':['a','d','c','b','e'],'C':[123,343,122,978,459]}) print(

03 -3 pandas 層次化索引（隱式構造，顯示構造）、多層列索引、多層索引物件的索引與切片操作（Series的操作，DataFrame的操作）

pandas層次化索引多級索引包括: 多級行索引和多級列索引 1. 建立多層行索引 1) 隱式構造最常見的方法是給DataFrame建構函式的index引數傳遞兩個或更多的陣列 Series也可以建立多層索引 import numpy as np

pandas中read_csv()方法和DataFrame物件的to_csv()

pandas中read_csv()方法和DataFrame物件的to_csv()方法的使用介紹安裝pandas pip3 install pandas to_csv() 官方呼叫介紹介紹：將DataFrame寫入逗號分隔值csv檔案

Pandas Cookbook -- 09合併Pandas物件及資料庫

合併Pandas物件及資料庫簡書大神SeanCheney的譯作，我作了些格式調整和文章目錄結構的變化，更適合自己閱讀，以後翻閱是更加方便自己查詢吧 import pandas as pd import numpy as np DataFrame插入讀取names資料集 names = pd.re

用 GroupBy 把JSON物件分組

不用寫實體類,將物件分組 static void Main(string[] args) { var jsonStr = new StringBuilder(); //準備JSON 模擬從資料庫查出的結果

資料分析面試題之Pandas中的groupby

昨天晚上，筆者有幸參加了一場面試，有一個環節就是現場程式設計！題目如下：示例資料如下，求每名學生（ID）對應的成績（score）最高的那門科目（class）與ID，用Python實現：這個題目看上去很簡單，其實，並不簡單。即要求輸出形式如下：當然，我

pandas的groupby

作用: groupby操作的是所有操作標籤相同的數比如data.groupby(‘col1’)操作的是所有col1標籤相同的行他們列相加例如下面一個dataframe A B C 0 a 2 102 1 b 8 98 2 a 1 107 3 c

Pandas分組統計函式：groupby、pivot_table及crosstab

利用python的pandas庫進行資料分組分析十分便捷，其中應用最多的方法包括：groupby、pivot_table及crosstab，以下分別進行介紹。 0、樣例資料 df = DataFrame({'key1':['a','a','b','b','a

Pandas apply函式同時對多列進行操作及groupby函式

DataFrame.apply(func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds): 其中axis=0對行操作；axis=1代表對列操作 def

pandas資料處理實踐四（時間序列date_range、資料分箱cut、分組技術GroupBy）

時間序列：關鍵函式 pandas.date_range（start = None，end = None，periods = None，freq = None，tz = None，normalize = False，name = None，closed = None，**

pandas中pd.groupby()的用法

在pandas中的groupby和在sql語句中的groupby有異曲同工之妙，不過也難怪，畢竟關係資料庫中的存放資料的結構也是一張大表罷了，與dataframe的形式相似。 import numpy as np import pandas as pd from pandas imp

pandas 學習彙總13 - 函式應用- 將自定義或其他庫函式應用於Pandas物件( tcy)

Pandas函式應用- 將自定義或其他庫函式應用於Pandas物件（pipe,apply,applymap,map,agg） 2018/12/5 1.函式： # 表函式應用： df.pipe(func, *args, **kwarg

Pandas GroupBy物件

建立GroupBy物件

Parameters:

Returns:

索引與迭代

函式應用（Function application）

描述統計

資料框（DataFrame）與序列（Series）通用函式

資料框（DataFrame）與序列（Series）不一致函式

僅支援序列（Series）的函式

僅支援資料框（DataFrame）的函式

相關推薦