Pandas：統計函式與apply

阿新 • • 發佈：2019-01-07

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

一、統計函式

方法	說明
count	非NA值的數量
describe	針對Series或各DataFrame列計算彙總統計
min、max	計算最小值和最大值
argmin、argmax	計算能夠獲取到最小值和最大值的索引位置
idxmin、idxmax	計算能夠獲取到最小值和最大值的索引值
quantile	計算樣本的分位數
sum	值的總和
mean	值的平均數
median	值的算術中位數
mad	根據平均值計算平均絕對離差
var	樣本值的方差
std	樣本值的標準差
skew	樣本值的偏度
kurt	樣本值的峰度
cumsum	樣本值的累計和
cummin、cummax	樣本值的累計最大值和累計最小值
cumprod	樣本值的累計積
diff	計算一階差分
pct_change	計算百分數變化

二、Pandas中的統計函式都是基於沒有缺失資料的

三、sum、idxmax、cumsum、describe

df = DataFrame([[1.4,np.nan],[7.1,-4.5],
              [np.nan,np.nan],[0.75,-1.3]],
              index = ['a','b','c','d'],
              columns = [1,2])
print(df)

      1    2
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

1.sum

df.sum() # 行求和

1    9.25
2   -5.80
dtype: float64

df.sum(axis=1 
) # 列求和

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

df.sum(skipna=False) # 不忽略NaN值

1   NaN
2   NaN
dtype: float64

2.idxmax：返回列值中最大元素的行索引(axis=0)

df.idxmax()

1    b
2    d
dtype: object

3.cumsum：累加

print(df.cumsum())

      1    2
a  1.40  NaN
b  8.50 -4.5
c   NaN  NaN
d  9.25 -5.8

4.describe：統計描述

print(df.describe()) # 按列

              1         2
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%    1.075000 -3.700000
50%    1.400000 -2.900000
75%    4.250000 -2.100000
max    7.100000 -1.300000

三、相關係數與協方差

1.Series

s1 = Series([1,3,5,6,9])
s2 = Series([2,3,4,6,9])

計算兩個Series中重疊的、非NA的，按索引對齊的值的協方差

s1.cov(s2)

8.1999999999999993

計算相關係數

s1.corr(s2)

0.974259335869603

2.DataFrame

df = DataFrame(np.random.rand(9).reshape(3,3),index=['a','b','c'],columns=['e','f','g'])
print(df)

          e         f         g
a  0.146858  0.129654  0.904029
b  0.914438  0.698205  0.970205
c  0.041829  0.938332  0.823483

計算列的協方差矩陣

print(df.cov())

          e         f         g
e  0.226943  0.023656  0.031214
f  0.023656  0.172479 -0.010457
g  0.031214 -0.010457  0.005399

計算列的相關係數

print(df.corr())

          e         f         g
e  1.000000  0.119568  0.891737
f  0.119568  1.000000 -0.342684
g  0.891737 -0.342684  1.000000

四、唯一值、值計數和成員資格

1.唯一值

o = Series(['a','b','a','c','d','c'])
o.unique()

array(['a', 'b', 'c', 'd'], dtype=object)

2.值計數

o.value_counts()

c    2
a    2
d    1
b    1
dtype: int64

3.成員資格

o.isin(['a','b'])

0     True
1     True
2     True
3    False
4    False
5    False
dtype: bool

五、函式應用(apply)

使用DataFrame的apply方法可以實現將函式應用到由各列或行所形成的一維陣列上

1.在列上apply單個函式

f = lambda x:x.max()-x.min() # 極差函式
df.apply(f) # 按列求極差

e    0.872609
f    0.808678
g    0.146722
dtype: float64

2.在行上apply單個函式

df.apply(f,axis=1)

a    0.774375
b    0.272000
c    0.896503
dtype: float64

3.在元素上applymap函式

format = lambda x:'%.2f'%x # 格式化函式
print(df.applymap(format))

      e     f     g
a  0.15  0.13  0.90
b  0.91  0.70  0.97
c  0.04  0.94  0.82

4.在列上apply多個函式

f1 = lambda x:x.max()-x.min()
f2 = lambda x:x.mean()
def f(x):
    return Series([f1(x),f2(x)],index=['range','mean']) # Series中的值是實際的函式，索引是該函式返回值的標籤
print(df.apply(f))

              e         f         g
range  0.872609  0.808678  0.146722
mean   0.367709  0.588730  0.899239

Pandas：統計函式與apply

import numpy as np import pandas as pd from pandas import Series,DataFrame 一、統計函式方法說明

Pandas分組統計函式：groupby、pivot_table及crosstab

利用python的pandas庫進行資料分組分析十分便捷，其中應用最多的方法包括：groupby、pivot_table及crosstab，以下分別進行介紹。 0、樣例資料 df = DataFrame({'key1':['a','a','b','b','a

R語言︱資料分組統計函式族——apply族用法與心得

每每以為攀得眾山小，可、每每又切實來到起點，大牛們，緩緩腳步來俺筆記葩分享一下吧，please~———————————————————————————筆者寄語：apply族功能強大，實用，可以代替很多迴

python 學習彙總59：高階函式與類的關係（初級學習- tcy）

目錄： 1. class定義 2. 內部類 3.外部定義函式 4.高階函式與類的關係 5.物件記憶體管理 6.類作用域 7.使用輸出引數 8.類屬性 9.類特性 10.描述符 11.檢視類屬性 12.繼承 13.型別檢測測試，檢視父子類 15.元類 16.基類 17.類裝

C語言面向物件程式設計：虛擬函式與多型（3）

在《 C++ 程式設計思想》一書中對虛擬函式的實現機制有詳細的描述，一般的編譯器通過虛擬函式表，在編譯時插入一段隱藏的程式碼，儲存型別資訊和虛擬函式地址，而在呼叫時，這段隱藏的程式碼可以找到和實際物件一致的虛擬函式實現。我們在這裡提供

re模組：核心函式與方法

1.group和groups的區別： n.group（N）返回第N組括號匹配的字元 n.group()==n.group(0)==返回所有匹配的字元 n.groups() 返回所有括號匹配的字元，以元組格式，沒有子組的時候將返回空元組示例：具體可見：https:/

機器學習3：sigmod函式與分類（啟用函式的來龍去脈）

sigmod函式： sigmod函式是常用的啟用函式，函式特點如上，用來表示分類概率。表面上看，是因為函式曲線正好可以用來描述概率關係0-1之間，並且有無限趨近的特點；實際上，sigmod函式確實與分類概率存在特定的聯絡。具體分析如下：在bayes分類中，後驗概率表示為

神經網路（二）：Softmax函式與多元邏輯迴歸

一、 Softmax函式與多元邏輯迴歸為了之後更深入地討論神經網路，本節將介紹在這個領域裡很重要的softmax函式，它常被用來定義神經網路的損失函式（針對分類問題）。根據機器學習的理論，二元邏輯迴歸的模型公式可以寫為如下的形式： (1)P(y=1)=11

C/C++面試題：建構函式與解構函式

建構函式與解構函式的一道小題下面程式的輸出是什麼？ #include<iostream> using namespace std; class TestClass{ cha

Pandas 描述統計函式

在進行統計描述時,pandas對三個資料物件的軸引數規定如下: Series: 沒有軸引數 DataFrame: “index” (axis=0, default), “columns” (axi

深度學習：Sigmoid函式與損失函式求導

1、sigmoid函式 sigmoid函式，也就是s型曲線函式，如下：函數：f(z)=11+e−z 導數：f′(z)=f(z)(1−f(z)) 上面是我們常見的形式，雖然知道這樣的形式，也知道計算流程，不夠感覺並不太直觀，下面

Hibernate hql查詢語句 Count：統計函式 Min：求最小值函式 Max：求最大值函式 Sum：求和函式 Avg：求平均數函式

在HQL中可以呼叫 Count：統計函式 Min：求最小值函式 Max：求最大值函式 Sum：求和函式 Avg：求平均數函式 Count：統計函式 Session session = HibernateSessionFactory.getSession(); Transaction tx = sess

Oracle函式： wm_concat函式與oracle版本（轉）

oracle中有一個看似很NB的內建函式wm_concat，可以方便的實現“行轉列”功能（相關用法，大家自行搜尋一下，能找到很多資料）今天偶然發現一個問題：在不同的oracle版本中，wm_concat返回的資料型別不一致. 10G版本中，返回的是字串型別

DAX 第六篇：統計函式（描述性統計）

統計函式用於建立聚合，對資料進行統計分析。在使用統計函式時，必須考慮到資料模型，表之間關係，資料重複等因素，一般都會搭配過濾函式實現資料的提取和分析。統計量一般是：均值、求和、計數、最大值、最小值、求中位數、獲得分位數等。一，求均值均值分為幾何均值和算術均值，幾何平均數是n個變數值連乘積的n次方根

python進階：np.vectorize與pandas apply比較

Py裡面很有趣的一個地方是達成目的不同方法之間的效率差異可以有好幾百倍，這樣的例子數不勝數，下面通過一個簡單的例子對比一下numpy的vectorize與pandas裡面的apply，雖然apply在用法上比vectorize多，但實際上apply對大於十萬行的資料處理已經是慢如蝸牛，別談大資料了，

pandas 學習彙總11 - 統計：pd.cut與pd.qcut數字按區間劃分( tcy)

pd.cut與pd.qcut數字按區間劃分 2018/12/4 1.函式： pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_low

pandas 學習彙總10 - 統計：視窗函式rolling，expanding( tcy)

視窗函式rolling，expanding 2018/12/4 主要用在統計方面。 1.函式 df.rolling(window,

十一、Go基礎程式設計：遞迴函式、函式型別、匿名函式與閉包

1. 遞迴函式遞迴指函式可以直接或間接的呼叫自身。遞迴函式通常有相同的結構：一個跳出條件和一個遞迴體。所謂跳出條件就是根據傳入的引數判斷是否需要停止遞迴，而遞迴體則是函式自身所做的一些處理。 //通過迴圈實現1+2+3……+100 func Test01() int { i

Python中pandas dataframe刪除一行或一列：drop函式

用法：DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 在這裡預設：axis=0，指刪除index，因此刪除columns時要指定axis=1； inplace=False，預設該刪除操作不

python學習筆記： range()函式、算數運算子“//”，迴圈while與for

range() 函式——可建立一個整數列表，一般用在 for 迴圈中，函式語法：range(start, stop[, step]) start: 計數從 start 開始。預設是從 0 開始。例如range（5）等價於range（0， 5）; stop: 計數到 stop 結束，但

Pandas：統計函式與apply

一、統計函式

二、Pandas中的統計函式都是基於沒有缺失資料的

三、sum、idxmax、cumsum、describe

1.sum

2.idxmax：返回列值中最大元素的行索引(axis=0)

3.cumsum：累加

4.describe：統計描述

三、相關係數與協方差

1.Series

2.DataFrame

四、唯一值、值計數和成員資格

1.唯一值

2.值計數

3.成員資格

五、函式應用(apply)

1.在列上apply單個函式

2.在行上apply單個函式

3.在元素上applymap函式

4.在列上apply多個函式

相關推薦