高階處理-分組與聚合

阿新 • • 發佈：2020-08-27

分組與聚合通常是分析資料的一種方式，通常與一些統計函式一起使用，檢視資料的分組情況

想一想其實剛才的交叉表與透視表也有分組的功能，所以算是分組的一種形式，只不過他們主要是計算次數或者計算比例！！看其中的效果

1 什麼分組與聚合

2 分組API

DataFrame.groupby(key, as_index=False)
- key:分組的列資料，可以多個
案例:不同顏色的不同筆的價格資料

col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen' 
],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})

color    object    price1    price2
0    white    pen    5.56    4.75
1    red    pencil    4.20    4.12
2    green    pencil    1.30    1.60
3    red    ashtray    0.56    0.75
4    green    pen    2.75    3.15

進行分組，對顏色分組，price進行聚合

# 分組，求平均值
col.groupby(['color'])['price1'].mean()
col['price1'].groupby(col['color']).mean()

color
green    2.025
red      2.380
white    5.560
Name: price1, dtype: float64

# 分組，資料的結構不變
col.groupby(['color'], as_index=False)['price1'].mean()

color    price1
0    green    2.025
1    red    2.380
2    white    5.560

3 星巴克零售店鋪資料

現在我們有一組關於全球星巴克店鋪的統計資料，如果我想知道美國的星巴克數量和中國的哪個多，或者我想知道中國每個省份星巴克的數量的情況，那麼應該怎麼辦？

3.1 資料獲取

從檔案中讀取星巴克店鋪資料

# 匯入星巴克店的資料
starbucks = pd.read_csv("./data/starbucks/directory.csv")

3.2 進行分組聚合

# 按照國家分組，求出每個國家的星巴克零售店數量
count = starbucks.groupby(['Country']).count()

畫圖顯示結果

count['Brand'].plot(kind='bar', figsize=(20, 8))
plt.show()

假設我們加入省市一起進行分組

# 設定多個索引，set_index()
starbucks.groupby(['Country', 'State/Province']).count()

高階處理-分組與聚合

分組與聚合通常是分析資料的一種方式，通常與一些統計函式一起使用，檢視資料的分組情況

Python實驗、Pandas 分組與聚合

技術標籤：Python實驗資料分析python 1、內容 1 、程式題 ①以年級資訊為分組鍵，對學生資訊進行分組，並輸出大一學生的資訊

MySql中的資料查詢語言（DQL）二：分組函式/聚合函式/多行處理函式和分組查詢

技術標籤：C_資料庫階段C1_MySql資料庫mysqljava 一、分組函式/聚合函式/多行處理函式

MySQL單表查詢操作例項詳解【語法、約束、分組、聚合、過濾、排序等】

本文例項講述了MySQL單表查詢操作。分享給大家供大家參考，具體如下：語法

mysql事務處理用法與例項程式碼詳解

MySQL的事務支援不是繫結在MySQL伺服器本身，而是與儲存引擎相關 1.MyISAM：不支援事務，用於只讀程式提高效能

oracle常用分析函式與聚合函式的用法

今天是2019年第一天，在此祝大家新年快樂，夢想還在路上，讓我們繼續加油！

python常見字串處理函式與用法彙總

本文例項講述了python常見字串處理函式與用法。分享給大家供大家參考，具體如下：

java使用elasticsearch分組進行聚合查詢過程解析

這篇文章主要介紹了java使用elasticsearch分組進行聚合查詢過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python處理PDF與CDF例項

在拿到資料後，最需要做的工作之一就是檢視一下自己的資料分佈情況。而針對資料的分佈，又包括pdf和cdf兩類。

VBA處理資料與Python Pandas處理資料案例比較分析

需求：現有一個 csv檔案，包含\'CNUM\'和\'COMPANY\'兩列，資料裡包含空行，且有內容重複的行資料。

Flutter使用JsBridge方式處理Webview與H5通訊的方法

目前，移動跨平臺開發作為移動開發的重要組成部分，是移動開發者必須掌握的技能，也是自我提升的重要手段。作為Google推出的跨平臺技術方案，Flutter具有諸多的優勢，已經或正在被廣大開發者應用在移動應用開發中。在

Java異常處理原理與用法例項分析

本文例項講述了Java異常處理原理與用法。分享給大家供大家參考，具體如下：

Mongoose的資料檢驗與聚合管道

一、什麼是mongoose的資料檢驗使用者通過mongoose給mongodb資料庫增加資料的時候，對資料的合法性進行的驗證

JAVA 異常處理捕獲與丟擲

JAVA 異常當代碼執行出現錯誤導致程式終止執行或出現錯誤情況的狀況，就是異常。異常不是指語法錯誤，即不屬於編譯錯誤，只有執行的程式才會有異常。

PostgreSQL 分組、聚合函式

根據老師表(teacher)，老師任課關係表(teacher2class)，課程表(class)，通過表連線，得到老師的任課結構表，如下：

Python 常用日期處理 -- calendar 與 dateutil 模組的使用

本文緊承上一篇 Python 常用日期處理，因制於篇幅的大小需求才臨時分立新篇，這裡要簡單提到 calendar 和 dateutil 模組的使用，其中 calendar 是 Python 內建的。相比於上一篇而言，此處主旨會更明確一些，只記錄三

JAVA異常處理捕獲與丟擲原理解析

資訊系統管理師、高階專案經理與計算機系統整合資質之間的關係

軟考，全名是計算機技術與軟體專業技術資格（水平）考試，軟考包含了很多考試，包括資訊系統專案管理師、系統整合專案管理工程師、系統分析師等考試，軟考是由人力資源和社會保障部以及工業和資訊化部共同

SQL：SQL高階處理

視窗函式什麼是視窗函式視窗函式也稱為 OLAP函式 OLAP 是 OnLine Analytical Processing 的簡稱，意思是對資料庫資料進行實時分析處理

PyQt5 處理 .ui 與 .qrc 檔案的操作記錄

PyQt5 處理 .ui 與 .qrc 檔案的操作記錄教程博文一、前言在寫 PyQt5 程式碼的時候，可能會遇到或自己寫到以下這兩個檔案，但是不清楚或者忘記如何操作，使得讓它們能在 PyQt 中正常執行，本篇文章記錄瞭

高階處理-分組與聚合

分組與聚合通常是分析資料的一種方式，通常與一些統計函式一起使用，檢視資料的分組情況

1 什麼分組與聚合

2 分組API

3 星巴克零售店鋪資料

3.1 資料獲取

3.2 進行分組聚合

相關推薦