1. 程式人生 > 其它 >Pandas之五資料操作

Pandas之五資料操作

Pandas之五資料操作

前面我們聊過了物件建立、資料檢視、資料選擇的相關操作,現在就要進入到資料分析階段了。使用pandas主要原因就是其提供的資料分析功能,能實現大部分的資料統計分析工作。對資料進行操作主要有四種類型:

  1. 資料統計:常用的就是計數、平均值、最大值、最小值、標準差、分位數等等
  2. 函式應用:依次對dataframe每行執行某個函式
  3. 數值計數:統計每個值出現的次數,在製作直方圖時可能會用到
  4. 字串函式:pandas支援字串,自然地支援對字串進行各種操作

下面我們以圖中的資料來演示上述各項功能。

1. 資料統計

使用pandas經常會要用到資料統計功能,常用的有計數count、平均值mean

、最大值max、最小值min、標準差std、分位數quantile等,其使用方法基本一致,此處以均值和標準差為例進行演示。

注:預設情況在統計時會忽略缺失值np.nan

1.1 平均值(mean)

計算平均值時可以按行計算或者按列計算,通過設定方法引數axis控制。

  1. 按列計算(預設情況下就是按列計算)
  1. 按行計算

1.2 標準差(std)

和計算平均值時一樣,可以按行計算或者按列計算,通過設定方法引數axis控制。

  1. 按列計算(預設情況下按列計算)
  1. 按行計算

2. 函式應用

可以對dataframe應用某個函式,也可以對指定的行或列應用,以累計和函式np.cumsum為例。

2.1 全域性應用

對整個df按列逐行計算累加和值,axis預設為0

2.2 對某行應用

從df中擷取某行,設定axis=1計算各列的累加和值,

2.3 對某列應用

從df中擷取某列,計算各行的累加和值

3. 數值計數

有時需要統計某些值出現的次數來繪製直方圖,可以使用value_count實現。value_counts有點類似於sql中的group by ... count。預設情況下做統計會忽略np.nan值,可以使用dropna=False統計np.nan值。

3.1 對所有列統計

下圖表示每行資料都不相同,只出現1次。

3.2 對某列做統計

同時統計E列中的數字和缺失值。

4. 字串函式

pandas為series提供了針對字串的操作方法.str,其包括諸如大小寫轉換lower,upper、字串替換replace等各種常用的字串操作函式。以replace為例:


歡迎關注微信公眾號:資料研發技術,收穫各類乾貨