Pandas聚合運算和分組運算

阿新 • • 發佈：2019-02-12

1.聚合運算

(1)使用內建的聚合運算函式進行計算

1>內建的聚合運算函式

sum(),mean(),max(),min(),size(),describe()...等等

2>應用聚合運算函式進行計算

import numpy as np
import pandas as pd
#建立df物件
dict_data = {
    'key1':['a','b','c','d','a','b','c','d'],
    'key2':['one','two','three','one','two','three','one','two'],
    'data1':np.random.randint(1,10,8),
    'data2':np.random.randint(1,10,8)
}

df = pd.DataFrame(dict_data)
print(df)
'''
   data1  data2 key1   key2
0      3      4    a    one
1      7      9    b    two
2      5      7    c  three
3      3      4    d    one
4      8      7    a    two
5      4      7    b  three
6      8      9    c    one
7      4      4    d    two
'''
#根據key1分組,進行sum()運算
df = df.groupby('key1').sum()
print(df)
'''
key1              
a        12     10
b         8      5
c         8     11
d        16     13
'''
#內建的聚合函式
print(df.groupby('key1').sum())
print('*'*50)
print(df.groupby('key1').max())
print('*'*50)
print(df.groupby('key1').min())
print('*'*50)
print(df.groupby('key1').mean())
print('*'*50)
print(df.groupby('key1').size())
print('*'*50)
#分組中非Nan資料的數量
print(df.groupby('key1').count())
print('*'*50)
print(df.groupby('key1').describe())

(2)自定義聚合函式進行計算

在使用自定義聚合函式的時候,需要用到一個agg()函式

#自定義聚合函式
#最大值-最小值
def peak_range(df):
    #返回資料範圍差值
    return df.max()**2 - df.min()**2

#agg()  可以將聚合計算的結果祖闖成一個dataframe物件返回

print(df.groupby('key1').agg(peak_range))

#lambda
print(df.groupby('key1').agg(lambda df:df.max()-df.min()))

(3)應用多個聚合函式,預設列索引為函式名

#應用多個聚合函式,預設列索引為函式名
#通過元素重新命名列索引('列索引',函式)
print(df.groupby('key1').agg(['sum','std','mean',('range',peak_range)]))
'''
     data1                      data2                     
       sum       std mean range   sum       std mean range
key1                                                      
a       10  2.828427  5.0    40    12  2.828427  6.0    48
b       10  5.656854  5.0    80     8  1.414214  4.0    16
c        6  1.414214  3.0    12     9  0.707107  4.5     9
d       15  0.707107  7.5    15     8  2.828427  4.0    32


'''

(4)指定每一列使用某個聚合運算函式

#指定每一列使用某個聚合運算函式
print(df.groupby('key1').agg({'data1':'mean','data2':'sum'}))
'''
      data1  data2
key1              
a       5.0     12
b       5.0      8
c       3.0      9
d       7.5      8
'''

2.分組運算

(1)進行分組運算,並在運算後的結果列索引前加字首

加字首用到add_prefix('字首')函式

#建立df物件
dict_data = {
    'key1':['a','b','c','d','a','b','c','d'],
    'key2':['one','two','three','one','two','three','one','two'],
    'data1':np.random.randint(1,10,8),
    'data2':np.random.randint(1,10,8)
}

df = pd.DataFrame(dict_data)
print(df)
'''
   data1  data2 key1   key2
0      1      5    a    one
1      9      3    b    two
2      3      6    c  three
3      6      9    d    one
4      8      4    a    two
5      5      5    b  three
6      9      6    c    one
7      4      1    d    two
'''
#按照key1分組,進行sum()運算
#在運算結果的列索引前新增字首
k1_sum = df.groupby('key1').sum().add_prefix('sum_')
print(k1_sum)
'''
      sum_data1  sum_data2
key1                      
a             9          9
b            14          8
c            12         12
d            10         10
'''

(2)進行分組運算,並把原始資料和結果資料合併

#建立df物件
dict_data = {
    'key1':['a','b','c','d','a','b','c','d'],
    'key2':['one','two','three','one','two','three','one','two'],
    'data1':np.random.randint(1,10,8),
    'data2':np.random.randint(1,10,8)
}

df = pd.DataFrame(dict_data)
print(df)
'''
   data1  data2 key1   key2
0      1      5    a    one
1      9      3    b    two
2      3      6    c  three
3      6      9    d    one
4      8      4    a    two
5      5      5    b  three
6      9      6    c    one
7      4      1    d    two
'''
#按照key1分組,進行sum()運算
#在運算結果的列索引前新增字首
k1_sum = df.groupby('key1').sum().add_prefix('sum_')
print(k1_sum)
'''
      sum_data1  sum_data2
key1                      
a             9          9
b            14          8
c            12         12
d            10         10
'''
#將運算結果和原始資料拼接到一起
#引數1:原始資料
#引數2:運算結果資料
pd.merge(df,k1_sum,left_on='key1',right_index=True)

(3)使用transform()函式,將計算結果按照原始資料排序成一個DataFrame物件

#建立df物件
dict_data = {
    'key1':['a','b','c','d','a','b','c','d'],
    'key2':['one','two','three','one','two','three','one','two'],
    'data1':np.random.randint(1,10,8),
    'data2':np.random.randint(1,10,8)
}

df = pd.DataFrame(dict_data)
print(df)
'''
   data1  data2 key1   key2
0      1      5    a    one
1      9      3    b    two
2      3      6    c  three
3      6      9    d    one
4      8      4    a    two
5      5      5    b  three
6      9      6    c    one
7      4      1    d    two
'''
#按照key1分組,進行sum()運算
#在運算結果的列索引前新增字首
k1_sum = df.groupby('key1').sum().add_prefix('sum_')
print(k1_sum)
'''
      sum_data1  sum_data2
key1                      
a             9          9
b            14          8
c            12         12
d            10         10
'''
#transform()  計算 會將計算的結果按照原始資料的排序組裝成一個dataframe物件
k1_sum_tf = df.groupby('key1').transform(np.sum).add_prefix('sum_')
# print(k1_sum_tf.columns)

#把運算結果資料拼接到原始資料後
df[k1_sum_tf.columns] = k1_sum_tf
print(df)
'''
   data1  data2 key1   key2 sum_data1 sum_data2  sum_key2
0      5      4    a    one         9        12    onetwo
1      3      3    b    two         5        12  twothree
2      9      2    c  three        14         9  threeone
3      6      5    d    one        11         9    onetwo
4      4      8    a    two         9        12    onetwo
5      2      9    b  three         5        12  twothree
6      5      7    c    one        14         9  threeone
7      5      4    d    two        11         9    onetwo
'''

Pandas聚合運算和分組運算

1.聚合運算(1)使用內建的聚合運算函式進行計算1>內建的聚合運算函式sum(),mean(),max(),min(),size(),describe()...等等2>應用聚合運算函式進行計算import numpy as np import pandas as

資料聚合和分組運算

GroupBy技術主要流程為split-apply-combine(拆分-應用-合併)，具體為：分組運算的第一個階段，pandas物件中的資料會根據你所提供的一個或多個鍵被拆分為多組，拆分操作實在特定的軸上執行的。然後，將一個函式應用

Java運算符使用總結（重點：自增自減、位運算和邏輯運算）

運算計算器可讀性過多移位運算 style avi 學會 new Java運算符共包括這幾種：算術運算符、比較運算符、位運算符、邏輯運算符、賦值運算符和其他運算符。（該圖來自網絡）簡單的運算符，就不過多介紹使用了，可自行測試。關於賦值運算，可以結合算術運

補充知識:三元運算和邏輯運算

round 玩家邏輯運算 ror info 基於列表條件表達式表示一. 邏輯運算符和邏輯表達式　　邏輯表達式是用邏輯運算符和變量連接起來的式子。任何語言的邏輯運算符都一般分為3種——邏輯與、邏輯或和邏輯非。C、Java語言的邏輯運算符用&&、‖、

Django基礎—— 14.聚合查詢和分組查詢

分享圖片技術基礎 http bubuko png src 查詢 djang Django基礎—— 14.聚合查詢和分組查詢

wxPython+Python3+eval實現基本運算和高階運算計算器（School Project）

這其實是我寫的第一次Python圖形化介面程式，當時還不會用Qt，於是就用wxPython寫的，wx相對於Qt來說還是要麻煩一些，介面看上去也沒有Qt高階。博主女生，嘗試把計算器介面換成粉紅色淡藍色，最後發現還是黑灰白的順眼一點。執行介面如下：下面是原始碼

位運算和邏輯運算

public class test ( private static int j = 0; private static boolean methodB(int k) ( j += k; return true; ) public static void m

矩陣運算和複數運算

功能說明實現了矩陣的加法、減法、乘法，並使用冪法求解矩陣的2-範數（原理我還不理解）。實現了複數的加法、減法、乘法、除法和求解複數的模。程式碼 matrix.h #pragma once struct matrix { int row; i

mysql聚合函式和分組

文章例項的資料表，來自上一篇部落格《mysql簡單查詢》：http://blog.csdn.net/zuiwuyuan/article/details/39349611 一、聚合函式聚合函式，也叫做組合函式求所有資料數 count不統計null ，統計的是記錄數SE

c++位運算和邏輯運算（&&和||：邏輯運算子；&和|：按位運算子）

兩者計算結果相同（針對各自的運算物件），只是效能上有差別而已。 &&和||：邏輯運算子 &和|：按位運算子 &&是且的意思,a&&b 兩者都為真才為真. ||是或的意思,a||b 兩者有一為真即真. &,|是位運算子.即對位進行運算,

2.6陣列運算和矩陣運算

1、陣列和標量的運算陣列可以和一個標量（1X1的矩陣）進行加、減、乘、除運算，其結果將是此標量和陣列中的每一個元素“相加”、“相減”、“相乘”、“相除”；而經典數學中矩陣和一個標量不能進行加、減運算，只允許矩陣和一個標量進行乘、除運算，並進行相除運算時，標量必須是除數，

HIbernate聚合函式和分組查詢(學習筆記)

聚合函式 Group by Having 聚合函式:查詢結果作為long型別返回 Count() 統計符合條件的記錄條數 Avg() 求平均值 Sum() 求和 Max

指標的點運算和箭頭運算(->)

指標的點運算和箭頭運算(->) （其實點運算是結構體變數訪問其成員的操作符箭頭運算是結構體指標訪問其指向的成員變數的操作符）突然發現指標的兩個運算子我是不太清楚的，就翻書搞了下：其實點運算和箭頭運算都可以當作訪問指標所指向的結構體或者類物件的成員是用

影象開運算和閉運算

1、原理影象開運算與閉運算與膨脹和腐蝕運算有關，由膨脹和腐蝕兩個運算的複合與集合操作（並、交、補等）組合成的運算構成。開運算與閉運算依據腐蝕和膨脹演變而來。 1）開運算：先對影象腐蝕後膨脹。 A○S= （AΘS）⊕ S 作用：用來消除小的物體，平滑形狀邊界，並且不改變其面積。可以去除小顆粒噪聲，斷開物體之間

pandas 資料聚合與分組運算

1. GroupBy技術 pandas物件(無論是Series、DataFrame還是其他的)中的資料會根據你所提供的一個或多個鍵被拆分(split)為多組。拆分操作是在物件的特定軸上執行的。例如：DataFrame可以在其行(axis=0)或列(axis=1)上進行分組，然後將一個函式應用

python資料分析08——pandas資料聚合與分組運算

python資料分析08——pandas資料聚合與分組運算在將資料集載入、融合、準備好之後，通常就是計算分組統計或生成透視表， pandas提供了一個靈活高效的groupby功能，它使你能以一種自然的方式對資料集進行切片、切塊、摘要等操作。一、GroupBy機制分組運算"

python/pandas資料分析（十五）-聚合與分組運算例項

用特定於分組的值填充缺失值用平均值去填充nan s=pd.Series(np.random.randn(6)) s[::2]=np.nan s 0 NaN 1 -0.1181

Pandas：分組級的運算和轉換--transform和apply

import numpy as np import pandas as pd from pandas import Series,DataFrame 一、介紹聚集函式只是將一組值轉換為一個標量

pandas—資料聚合與分組運算

data1 (-2.848, -1.353] count 87.000000 max 2.230317 mean -0.073813

Pandas基本功能之算術運算、排序和排名

算術運算和資料對齊 Series和DataFrame中行運算和列運算有種特徵叫做廣播在將物件相加時，如果存在不同的索引對，則結果的索引就是該索引對的並集。自動的資料對齊操作在不重疊的索引處引入了NA值，NA值在算術運算中過程中傳播。 import pandas as pd from pandas im

Pandas聚合運算和分組運算

1.聚合運算

(1)使用內建的聚合運算函式進行計算

1>內建的聚合運算函式

2>應用聚合運算函式進行計算

(2)自定義聚合函式進行計算

(3)應用多個聚合函式,預設列索引為函式名

(4)指定每一列使用某個聚合運算函式

2.分組運算

(1)進行分組運算,並在運算後的結果列索引前加字首

(2)進行分組運算,並把原始資料和結果資料合併

相關推薦