pandas中pd.groupby()的用法

阿新 • • 發佈：2018-12-14

在pandas中的groupby和在sql語句中的groupby有異曲同工之妙，不過也難怪，畢竟關係資料庫中的存放資料的結構也是一張大表罷了，與dataframe的形式相似。

import numpy as np
import pandas as pd
from pandas import Series, DataFrame


df = pd.read_csv('./city_weather.csv')
print(df)
'''
          date city  temperature  wind
0   03/01/2016   BJ            8     5
1   17/01/2016   BJ           12     2
2   31/01/2016   BJ           19     2
3   14/02/2016   BJ           -3     3
4   28/02/2016   BJ           19     2
5   13/03/2016   BJ            5     3
6   27/03/2016   SH           -4     4
7   10/04/2016   SH           19     3
8   24/04/2016   SH           20     3
9   08/05/2016   SH           17     3
10  22/05/2016   SH            4     2
11  05/06/2016   SH          -10     4
12  19/06/2016   SH            0     5
13  03/07/2016   SH           -9     5
14  17/07/2016   GZ           10     2
15  31/07/2016   GZ           -1     5
16  14/08/2016   GZ            1     5
17  28/08/2016   GZ           25     4
18  11/09/2016   SZ           20     1
19  25/09/2016   SZ          -10     4
''' 


g = df.groupby(df['city'])
# <pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7f10450e12e8>

print(g.groups)

# {'BJ': Int64Index([0, 1, 2, 3, 4, 5], dtype='int64'),
# 'GZ': Int64Index([14, 15, 16, 17], dtype='int64'),
# 'SZ': Int64Index([18, 19], dtype='int64'),
# 'SH': Int64Index([6, 7, 8, 9, 10, 11, 12, 13], dtype='int64')} 


print(g.size()) # g.size() 可以統計每個組 成員的 數量
'''
city
BJ    6
GZ    4
SH    8
SZ    2
dtype: int64
'''

print(g.get_group('BJ')) # 得到 某個 分組
'''
         date city  temperature  wind
0  03/01/2016   BJ            8     5
1  17/01/2016   BJ           12     2
2  31/01/2016   BJ           19     2
3  14/02/2016   BJ           -3     3
4  28/02/2016   BJ           19     2
5  13/03/2016   BJ            5     3
''' 


df_bj = g.get_group('BJ')
print(df_bj.mean()) # 對這個 分組 求平均
'''
temperature    10.000000
wind            2.833333
dtype: float64
'''

# 直接使用 g 物件，求平均值
print(g.mean()) # 對 每一個 分組， 都計算分組
'''
      temperature      wind
city                       
BJ         10.000  2.833333
GZ          8.750  4.000000
SH          4.625  3.625000
SZ          5.000  2.500000
'''

print(g.max())
'''
            date  temperature  wind
city                               
BJ    31/01/2016           19     5
GZ    31/07/2016           25     5
SH    27/03/2016           20     5
SZ    25/09/2016           20     4
'''

print(g.min())
'''
            date  temperature  wind
city                               
BJ    03/01/2016           -3     2
GZ    14/08/2016           -1     2
SH    03/07/2016          -10     2
SZ    11/09/2016          -10     1
'''

# g 物件還可以使用 for 進行迴圈遍歷
for name, group in g:
    print(name)
    print(group)




# g 可以轉化為 list型別， dict型別
print(list(g)) # 元組第一個元素是 分組的label，第二個是dataframe
'''
[('BJ',          date city  temperature  wind
0  03/01/2016   BJ            8     5
1  17/01/2016   BJ           12     2
2  31/01/2016   BJ           19     2
3  14/02/2016   BJ           -3     3
4  28/02/2016   BJ           19     2
5  13/03/2016   BJ            5     3), 
('GZ',           date city  temperature  wind
14  17/07/2016   GZ           10     2
15  31/07/2016   GZ           -1     5
16  14/08/2016   GZ            1     5
17  28/08/2016   GZ           25     4), 
('SH',           date city  temperature  wind
6   27/03/2016   SH           -4     4
7   10/04/2016   SH           19     3
8   24/04/2016   SH           20     3
9   08/05/2016   SH           17     3
10  22/05/2016   SH            4     2
11  05/06/2016   SH          -10     4
12  19/06/2016   SH            0     5
13  03/07/2016   SH           -9     5), 
('SZ',           date city  temperature  wind
18  11/09/2016   SZ           20     1
19  25/09/2016   SZ          -10     4)]
'''
print(dict(list(g))) # 返回鍵值對，值的型別是 dataframe
'''
{'SH':           date city  temperature  wind
6   27/03/2016   SH           -4     4
7   10/04/2016   SH           19     3
8   24/04/2016   SH           20     3
9   08/05/2016   SH           17     3
10  22/05/2016   SH            4     2
11  05/06/2016   SH          -10     4
12  19/06/2016   SH            0     5
13  03/07/2016   SH           -9     5, 
'SZ':           date city  temperature  wind
18  11/09/2016   SZ           20     1
19  25/09/2016   SZ          -10     4, 
'GZ':           date city  temperature  wind
14  17/07/2016   GZ           10     2
15  31/07/2016   GZ           -1     5
16  14/08/2016   GZ            1     5
17  28/08/2016   GZ           25     4, 
'BJ':          date city  temperature  wind
0  03/01/2016   BJ            8     5
1  17/01/2016   BJ           12     2
2  31/01/2016   BJ           19     2
3  14/02/2016   BJ           -3     3
4  28/02/2016   BJ           19     2
5  13/03/2016   BJ            5     3}
'''

pandas中pd.groupby()的用法

在pandas中的groupby和在sql語句中的groupby有異曲同工之妙，不過也難怪，畢竟關係資料庫中的存放資料的結構也是一張大表罷了，與dataframe的形式相似。 import numpy as np import pandas as pd from pandas imp

04-3 pandas 中 pd.Categorical用法

pandas.Categorical（values，categories = None，ordered = None，dtype = None，fastpath = False ）[source] 表示經典R / S-plus方式的分類變數分類只能採用有限的，通常是固定數量的可能值（類

pandas中pd.read_excel()方法中的converters參數

exc 對象實現編碼類型 div spa 方法情況最近用pandas的pd.read_excel()方法讀取excel文件時，遇到某一列的數據前面包含0（如010101）的時候，pd.read_excel()方法返回的DataFrame會將這一列視為int類型，即

pandas中的reindex用法

pandas中的reindex方法可以為series和dataframe新增或者刪除索引。如果新新增的索引沒有對應的值，則預設為nan。如果減少索引，就相當於一個切片操作。 import numpy as np import pandas as pd from pandas imp

pandas中merge的用法

使用過sql語言的話，一定對join，left join， right join等非常熟悉，在pandas中，merge的作用也非常類似。直接上例子： import numpy as np import pandas as pd from pandas import Series,

資料分析面試題之Pandas中的groupby

昨天晚上，筆者有幸參加了一場面試，有一個環節就是現場程式設計！題目如下：示例資料如下，求每名學生（ID）對應的成績（score）最高的那門科目（class）與ID，用Python實現：這個題目看上去很簡單，其實，並不簡單。即要求輸出形式如下：當然，我

pandas 中對axis=0,axis=1的理解，對應pandas中drop的用法

Stackoverflow.com是程式設計師的好去處，本公眾號將以pandas為主題，開始一個系列，爭取做到每週一篇，翻譯並幫助pandas學習者一起理解一些有代表性的案例。今天的主題就是Pandas與Numpy中一個非常重要的引數：axis.(軸） Stackoverflow問題如下： python中的

pandas中Timestamp類用法講解

由於網上關於Timestamp類的資料比較少，而且官網上面介紹的很模糊，本文只是對如何建立Timestamp類物件進行簡要介紹，詳情請讀者自行查閱文件。以下有兩種方式可以建立一個Timestamp物

python庫學習筆記——分組計算利器：pandas中的groupby技術

最近處理資料需要分組計算，又用到了groupby函式，溫故而知新。分組運算的第一階段，pandas 物件（無論是 Series、DataFrame 還是其他的）中的資料會根據你

pandas中的groupby函式的分組結果怎麼儲存成DataFrame

在使用pandas進行資料統計分析時，作為一個小白糾結了好久如何儲存groupby函式的分組結果，本打算放棄了，一個偶然的機會看前人分享的程式碼才發現了可以通過reset_index()函式將groupby()的分組結果轉換成DataFrame物件。程式碼舉例： t

Pandas 資料處理 | Datetime 在 Pandas 中的一些用法！

Datatime 是 Python 中一種時間資料型別，對於不同時間格式之間的轉換是比較方便的，而在 Pandas 中也同樣支援 DataTime 資料機制，可以藉助它實現許多有用的功能，例如 1，函式to_datetime() 將資料列表中的 Series 列轉化為 datetime 型別， ```py

簡要說明python pandas中groupby，agg等的用法

以下列程式碼為例： import numpy as np import pandas as pd import pandas as pd df = pd.DataFrame({'key1':list('aaaab'), 'key2':

pandas中apply()方法的用法

apply有點像map的用法，可以傳入一個函式。 import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read_csv('apply_demo.csv').head(

pandas中concatenate和combine_first的用法

concatenate主要作用是拼接series和dataframe的資料。 combine_first可以做來填充資料。 import numpy as np import pandas as pd from pandas import Series, DataFrame # 設

Pandas中merge()用法

merge函式用途 pandas中的merge()函式類似於SQL中join的用法，可以將不同資料集依照某些欄位（屬性）進行合併操作，得到一個新的資料集。 merge()函式的具體引數用法： DataFrame1.merge(DataFram

Pandas中Series用法總結

Series：帶標籤的陣列本文對Pandas包中的一維資料型別Series特點及用法進行了總結歸納。 2.1 如何建立Sereis #匯入Pandas包 import pandas as pd #建立Series #1.1.1 通過列表List listSer=pd.Se

Pandas中DataFrame用法總結

DataFrame：類似於表的資料結構本文對Pandas包中二維（多維）資料結構DataFrame的特點和用法進行了總結歸納。可以參考：pandas用法速覽 3.1 增加資料 3.1.1 建立資料框Object Creation import pandas as pd

Python中numpy庫和pandas庫的基本用法

使用前先安裝兩個庫：python3 -m pip install numpy pandas 注意因為我把我自己的python.exe命令成了python3.exe（因為系統裡有多個版本的python存在），所以上面的命令裡用的是python3。 numpy庫： NumP

pandas中的pd.pivot_table()透視表功能

和excel一樣，pandas也有一個透視表的功能，具體demo如下： import numpy as np import pandas as pd from pandas import Series, DataFrame #顯示所有列 pd.set_option('displa

python3中的groupby函式用法

原文地址：http://www.cnblogs.com/zhangzhangwhu/p/7219651.html 前言 Python的pandas包提供的資料聚合與分組運算功能很強大，也很靈活。《Python for Data Analysis》這本書第9章詳細的介

pandas中pd.groupby()的用法

相關推薦