pandas 講資料分組之後保留前N行方法

阿新 • • 發佈：2021-11-20

原始資料如下：

（圖是從 excel 截的，最左1行不是資料，是 excel 自帶的行號，為了方便說明截進來的）

除去首行是標題外，有效資料為 28行 x 4列

目前的需求是根據 partition 分組，然後取每組的前 2 行，如果不考慮排序，程式碼如下：
（把head()裡面的數字改成 n 就可以取 n 行）

import pandas as pd

esp_df = pd.read_excel('excel檔案路徑', sheet_name='Sheet名')
esp_df.groupby(['partition', 'create_time', 'last_modified_time']).mean().reset_index(drop=False).groupby('partition').head(2)

結果如下：

分別說明如下：

groupby：分組，這裡是根據資料中的 3 列來一起分組，因為我們並不需要做聚合運算，所以這麼取可以保留原始資料不變。原始資料只有 4 列，這裡 groupby 了 3 列，只剩下 size（其實把 size 放進去一起 groupby 也沒問題）
mean：求平均值，但是在這裡沒用，因為上一步的 groupby 取了前面的 3 列，在本例中，前 3 列並在一起就能得到一個唯一的一行，所以這裡其實也只是每一行資料自己求平均數，結果等於它本身。同理，這裡替代成求和函式sum()也是一樣的。但是不能省略，因為**省略後它就是一個DataFrameGroupBy型別的變數，不是DataFrame

，而DataFrameGroupBy是沒有後面的reset_index方法的
reset_index：重置索引，groupby 之後，結果集的索引就變成了 groupby 裡面的 key，這個reset_index把這個索引重新退回為資料。
舉例說明，在應用reset_index之前，即使用mean()之後的資料是這樣的：

可以看到左邊的 3 列，也就是 groupby key 的 partition、create_time、last_modified_time 是加粗了的，說明此時這 3 列都是索引；而且 partition 因為有相同的行，還被合併了。顯然這不是我們想要的。reset_index 把它們重新放回到資料列裡

引數中的drop

作用是是否保留（重置前）的索引
資料就又回來了，索引變成了原來預設的（0123...）

groupby：再次根據 partition 分組
head: 取每個分組的前 n 行

如果要排序

本例中，如果要先根據 partition 分組，然後再根據 size 倒序（從大到小）再取前 2 行，則程式碼如下：

esp_df.groupby(['partition']).apply(lambda x: x.sort_values(["size"], ascending = False)).reset_index(drop=True).groupby('partition').head(2)

結果如下：

摘抄至https://www.cnblogs.com/wuzhiblog/p/pandas_get_first_n_rows_for_each_group.html

你的時間用在哪裡決定你成為一個什麼樣的人。

pandas 講資料分組之後保留前N行方法

原始資料如下：（圖是從 excel 截的，最左1行不是資料，是 excel 自帶的行號，為了方便說明截進來的）

pandas顯示前n行和最後n行

技術標籤：# pandas資料分析目錄 Exploring data frames Get help on Jupyter notebook 建立dataframe

ClickHouse中通過欄位分組並獲取分組排序後每組的前N條資料

技術標籤：資料庫相關下面以股票交易資料為例子：需求為獲取每個股票最後五個交易日的交易資料。ClickHouse不提供視窗函式，那麼解決思路變為先找到每個股票的最後五個交易日期，然後再通過股票程式碼和交易日

MySQL分組查詢後獲取前N條資料

思路查詢出資料，然後使用group by排序，這樣可以得到分組後的資料，然後我們在select中的查詢欄位內自定義一個欄位，用來獲取其排序順序，最後再在外層加一層，只要獲取前N條資料即可。

django 前端頁面如何實現顯示前N條資料

這個涉及到的知識點是django資料庫查詢問題，我們可以在view.py檔案中操作 blog_list = models.Blog.objects.all()[:3]

16-Pandas資料分組的函式應用（apply()、agg()和transform()、applymap()）

將自己定義的或其他庫的函式應用於Pandas物件，有以下3種方法： apply()：逐行或逐列應用該函式

（資料科學學習手札99）掌握pandas中的時序資料分組運算

本文示例程式碼及檔案已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes

【筆記】求資料前n個主成分以及對高維資料對映為低維資料

求資料前n個主成分並進行高維資料對映為低維資料的操作求資料前n個主成分

有一分數序列： 2/1 3/2 5/3 8/5 13/8 21/13...... 求出這個數列的前N項之和，保留兩位小數。

技術標籤：python 這裡寫自定義目錄標題新的改變功能快捷鍵合理的建立標題，有助於目錄的生成如何改變文字的樣式插入連結與圖片如何插入一段漂亮的程式碼片生成一個適合你的列表建立一個表格設定內容居中、居

tp5 mysql 查詢表中每個類的前n條資料

因為我的分類存的是id, 所以要join 關聯查詢（把theme_id < 4 查的是前三個分類的資料，去掉則是全部分類）

5-Pandas資料分組的函式應用（df.apply()、df.agg()和df.transform()、df.applymap()）

將自己定義的或其他庫的函式應用於Pandas物件，有以下3種方法： apply()：逐行或逐列應用該函式

解決pandas展示資料輸出時列名不能對齊的問題

列名用了中文的緣故，設定pandas的引數即可，程式碼如下： import pandas as pd #這兩個引數的預設設定都是False

pandas 空資料處理方法詳解

這篇文章主要介紹了pandas 空資料處理方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Pandas 缺失資料處理的實現

資料丟失(缺失)在現實生活中總是一個問題。機器學習和資料探勘等領域由於資料缺失導致的資料質量差，在模型預測的準確性上面臨著嚴重的問題。在這些領域，缺失值處理是使模型更加準確和有效的重點。

Java列印斐波那契前N項的實現示例

題外由於idea原因用註解test無法在控制檯上輸入所以寫死到程式裡了，版本都30.9102了為什麼還是這樣啊，intelJ你們該反思了！！！

學習筆記(05):MySQL資料庫入門實戰精講-資料完整性

立即學習:https://edu.csdn.net/course/play/27328/362521?utm_source=blogtoedu 5.資料完整性：資料在庫裡的一致性和可靠性

opencv利用視訊的前n幀求平均影象

本文例項為大家分享了opencv利用視訊的前n幀求平均影象的具體程式碼，供大家參考，具體內容如下

python求前n個階乘的和例項

我就廢話不多說了，還是直接看程式碼吧！ i = int(input(\"input\")) sum = 0 if i<1: exit()

VBA處理資料與Python Pandas處理資料案例比較分析

需求：現有一個 csv檔案，包含\'CNUM\'和\'COMPANY\'兩列，資料裡包含空行，且有內容重複的行資料。

python資料處理——對pandas進行資料變頻或插值例項

這裡首先要介紹官方文件，對python有了進一步深度的學習的大家們應該會發現，網上不管csdn或者簡書上還是什麼地方，教程來源基本就是官方文件，所以英語只要還過的去，推薦看官方文件，就算不夠好，也可以只看它裡面

pandas 講資料分組之後保留前N行方法

如果要排序

相關推薦