1. 程式人生 > >pandas 常用統計方法

pandas 常用統計方法

統計方法

pandas 物件有一些統計方法。它們大部分都屬於約簡和彙總統計,用於從 Series 中提取單個值,或從 DataFrame 的行或列中提取一個 Series。

比如 DataFrame.mean(axis=0,skipna=True) 方法,當資料集中存在 NA 值時,這些值會被簡單跳過,除非整個切片(行或列)全是 NA,如果不想這樣,則可以通過 skipna=False 來禁用此功能:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 >>> df
one  two 1.40  NaN 7.10 -4.5 c   NaN  NaN 0.75 -1.3 [4 rows x 2 columns] >>> df.mean() one    3.083333 two   -2.900000 dtype: float64 >>> df.mean(axis=1) a    1.400 b    1.300 c      NaN d   -0.275 dtype: float64 >>> df.mean(axis=1,skipna=False) a      NaN
b    1.300 c      NaN d   -0.275 dtype: float64

其他常用的統計方法有:

######################## ******************************************
count 非 NA 值的數量
describe 針對 Series 或 DF 的列計算彙總統計
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整數)
idxmin , idxmax 最小值和最大值的索引值
quantile 樣本分位數(0 到 1)
sum 求和
mean 均值
median 中位數
mad 根據均值計算平均絕對離差
var 方差
std 標準差
skew 樣本值的偏度(三階矩)
kurt 樣本值的峰度(四階矩)
cumsum 樣本值的累計和
cummin , cummax 樣本值的累計最大值和累計最小值
cumprod 樣本值的累計積
diff 計算一階差分(對時間序列很有用)
pct_change 計算百分數變化