Pandas之五資料操作
阿新 • • 發佈:2021-09-16
Pandas之五資料操作
前面我們聊過了物件建立、資料檢視、資料選擇的相關操作,現在就要進入到資料分析階段了。使用pandas主要原因就是其提供的資料分析功能,能實現大部分的資料統計分析工作。對資料進行操作主要有四種類型:
- 資料統計:常用的就是計數、平均值、最大值、最小值、標準差、分位數等等
- 函式應用:依次對dataframe每行執行某個函式
- 數值計數:統計每個值出現的次數,在製作直方圖時可能會用到
- 字串函式:pandas支援字串,自然地支援對字串進行各種操作
下面我們以圖中的資料來演示上述各項功能。
1. 資料統計
使用pandas經常會要用到資料統計功能,常用的有計數count
、平均值mean
max
、最小值min
、標準差std
、分位數quantile
等,其使用方法基本一致,此處以均值和標準差為例進行演示。
注:預設情況在統計時會忽略缺失值np.nan
。
1.1 平均值(mean)
計算平均值時可以按行計算或者按列計算,通過設定方法引數axis控制。
- 按列計算(預設情況下就是按列計算)
- 按行計算
1.2 標準差(std)
和計算平均值時一樣,可以按行計算或者按列計算,通過設定方法引數axis控制。
- 按列計算(預設情況下按列計算)
- 按行計算
2. 函式應用
可以對dataframe應用某個函式,也可以對指定的行或列應用,以累計和函式np.cumsum
為例。
2.1 全域性應用
對整個df按列逐行計算累加和值,axis預設為0
2.2 對某行應用
從df中擷取某行,設定axis=1計算各列的累加和值,
2.3 對某列應用
從df中擷取某列,計算各行的累加和值
3. 數值計數
有時需要統計某些值出現的次數來繪製直方圖,可以使用value_count
實現。value_counts
有點類似於sql中的group by ... count
。預設情況下做統計會忽略np.nan
值,可以使用dropna=False
統計np.nan
值。
3.1 對所有列統計
下圖表示每行資料都不相同,只出現1次。
3.2 對某列做統計
同時統計E列中的數字和缺失值。
4. 字串函式
pandas為series提供了針對字串的操作方法.str
,其包括諸如大小寫轉換lower,upper
、字串替換replace
等各種常用的字串操作函式。以replace為例:
歡迎關注微信公眾號:資料研發技術,收穫各類乾貨