1. 程式人生 > >[數據分析工具] Pandas 功能介紹(二)

[數據分析工具] Pandas 功能介紹(二)

技術 describe 索引 sum cat std 簡單 方法 nbsp

條件過濾

我們需要看第一季度的數據是怎樣的,就需要使用條件過濾

技術分享圖片

體感的舒適適濕度是40-70,我們試著過濾出體感舒適濕度的數據

技術分享圖片

最後整合上面兩種條件,在一季度體感濕度比較舒適的數據

技術分享圖片

列排序

數據按照某列進行排序

技術分享圖片

“by”參數可以使用字符串,也可以是列表,ascending 的參數也可以是單個值或者列表

技術分享圖片

ascending 默認值是 True

列中的每行上的 apply 函數

在前一篇的增加列的部分,根據風速計算人體感覺是否舒適,為了功能的演示,在這裏使用 DataFrame 的 apply 方法,他會在指定列的每個值上執行。詳見代碼:

技術分享圖片

均值和標準差

我們通過 describe 方法查看的統計信息中均值和方差都是按照列統計呢,這裏要說的,既可以按照列,還可以按照行

均值,行 df.mean(axis=0),列df.mean(axis=1)

方差,行 df.std(axis=0),列df.std(axis=1)

DataFrame 轉換為 Numpy

技術分享圖片

DataFrame 合並

連接合並

在兩個 df 的結果一致的情況下,我們可以簡單兩個 df 拼接起來

垂直(行)拼接,pd.concat([df1,df2],axis=0),水平(列)拼接,pd.concat([df1,df2],axis=1)

基於索引關鍵字合並

Pandas 還提供了像 SQL 一樣的連接,內聯,外聯,左聯,右聯

作為我們的示例數據,可以唯一標識一行的就是 Datatime 列

merged_df = df_1.merge(df_2, how=‘left‘, on=‘datetime‘)

在 DataFrame 中查找 NaN

每行有多少 NaN,df.isnull().sum()

Dataframe 中 NaN 的總數,上面統計出來的數量求和,df.isnull().sum().sum()

分組 Group By

分組在數據統計的時候經常使用。特別是統計數量、計算和、求平均值,等等。

我們在這裏統計一下每個季度的假期數是多少

技術分享圖片

在統計一下,每個季度的平均分風速是多少

技術分享圖片

定義範圍

如果我們想根據風力把風的等級區分出來,你可能可快就想到上面剛剛介紹的 apply,不過,現在介紹另外一種方式

技術分享圖片

通過這兩次的分享,我們已經了解了 pandas 數據處理常用的方式方法。

文件內容簡單說明:

技術分享圖片

文件地址:

bikeshare.zip

雲+社區:[數據分析工具] Pandas 功能介紹(二)

知乎:[數據分析工具] Pandas 功能介紹(二)

[數據分析工具] Pandas 功能介紹(二)