pandas 常用統計方法
阿新 • • 發佈:2019-01-23
統計方法
pandas 物件有一些統計方法。它們大部分都屬於約簡和彙總統計,用於從 Series 中提取單個值,或從 DataFrame 的行或列中提取一個 Series。
比如 DataFrame.mean(axis=0,skipna=True)
方法,當資料集中存在 NA 值時,這些值會被簡單跳過,除非整個切片(行或列)全是 NA,如果不想這樣,則可以通過 skipna=False
來禁用此功能:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
>>>
df one
two
a
1.40 NaN
b
7.10 - 4.5
c
NaN NaN
d
0.75 - 1.3
[ 4 rows
x 2 columns]
>>>
df.mean()
one
3.083333
two
- 2.900000
dtype:
float64
>>>
df.mean(axis = 1 )
a
1.400
b
1.300
c
NaN
d
- 0.275
dtype:
float64
>>>
df.mean(axis = 1 ,skipna = False )
a
NaN b
1.300
c
NaN
d
- 0.275
dtype:
float64
|
其他常用的統計方法有:
######################## | ****************************************** |
count | 非 NA 值的數量 |
describe | 針對 Series 或 DF 的列計算彙總統計 |
min , max | 最小值和最大值 |
argmin , argmax | 最小值和最大值的索引位置(整數) |
idxmin , idxmax | 最小值和最大值的索引值 |
quantile | 樣本分位數(0 到 1) |
sum | 求和 |
mean | 均值 |
median | 中位數 |
mad | 根據均值計算平均絕對離差 |
var | 方差 |
std | 標準差 |
skew | 樣本值的偏度(三階矩) |
kurt | 樣本值的峰度(四階矩) |
cumsum | 樣本值的累計和 |
cummin , cummax | 樣本值的累計最大值和累計最小值 |
cumprod | 樣本值的累計積 |
diff | 計算一階差分(對時間序列很有用) |
pct_change | 計算百分數變化 |