[數據分析工具] Pandas 功能介紹(二)
條件過濾
我們需要看第一季度的數據是怎樣的,就需要使用條件過濾
體感的舒適適濕度是40-70,我們試著過濾出體感舒適濕度的數據
最後整合上面兩種條件,在一季度體感濕度比較舒適的數據
列排序
數據按照某列進行排序
“by”參數可以使用字符串,也可以是列表,ascending 的參數也可以是單個值或者列表
ascending 默認值是 True
列中的每行上的 apply 函數
在前一篇的增加列的部分,根據風速計算人體感覺是否舒適,為了功能的演示,在這裏使用 DataFrame 的 apply 方法,他會在指定列的每個值上執行。詳見代碼:
均值和標準差
我們通過 describe 方法查看的統計信息中均值和方差都是按照列統計呢,這裏要說的,既可以按照列,還可以按照行
均值,行 df.mean(axis=0),列df.mean(axis=1)
方差,行 df.std(axis=0),列df.std(axis=1)
DataFrame 轉換為 Numpy
DataFrame 合並
連接合並
在兩個 df 的結果一致的情況下,我們可以簡單兩個 df 拼接起來
垂直(行)拼接,pd.concat([df1,df2],axis=0),水平(列)拼接,pd.concat([df1,df2],axis=1)
基於索引關鍵字合並
Pandas 還提供了像 SQL 一樣的連接,內聯,外聯,左聯,右聯
作為我們的示例數據,可以唯一標識一行的就是 Datatime 列
merged_df = df_1.merge(df_2, how=‘left‘, on=‘datetime‘)
在 DataFrame 中查找 NaN
每行有多少 NaN,df.isnull().sum()
Dataframe 中 NaN 的總數,上面統計出來的數量求和,df.isnull().sum().sum()
分組 Group By
分組在數據統計的時候經常使用。特別是統計數量、計算和、求平均值,等等。
我們在這裏統計一下每個季度的假期數是多少
在統計一下,每個季度的平均分風速是多少
定義範圍
如果我們想根據風力把風的等級區分出來,你可能可快就想到上面剛剛介紹的 apply,不過,現在介紹另外一種方式
通過這兩次的分享,我們已經了解了 pandas 數據處理常用的方式方法。
文件內容簡單說明:
文件地址:
bikeshare.zip雲+社區:[數據分析工具] Pandas 功能介紹(二)
知乎:[數據分析工具] Pandas 功能介紹(二)
[數據分析工具] Pandas 功能介紹(二)