Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg)
阿新 • • 發佈:2020-06-15
1.單列運算
在Pandas中,DataFrame的一列就是一個Series,可以通過map來對一列進行操作:
df['col2'] = df['col1'].map(lambda x: x**2)
其中lambda函式中的x代表當前元素。可以使用另外的函式來代替lambda函式,例如:
define square(x): return (x ** 2) df['col2'] = df['col1'].map(square)
2.多列運算
apply()會將待處理的物件拆分成多個片段,然後對各片段呼叫傳入的函式,最後嘗試將各片段組合到一起。
要對DataFrame的多個列同時進行運算,可以使用apply,例如col3 = col1 + 2 * col2:
df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'],axis=1)
其中x帶表當前行,可以通過下標進行索引。
示例2
In [44]: f = lambda x : x.max()-x.min() In [45]: df.apply(f) Out[45]: data1 5.042275 data2 1.967290 dtype: float64 In [46]: df.apply(f,axis=1) Out[46]: 0 2.810074 1 1.009774 2 0.537183 3 0.813714 4 1.750022 dtype: float64
applymap()
用DataFrame的applymap方法,可以將函式應用到元素級的資料上。
In [47]: f = lambda x : x+1 In [48]: df.applymap(f) Out[48]: data1 data2 0 -1.332263 1.477812 1 0.284755 1.294528 2 0.066644 0.603827 3 1.757402 2.571117 4 3.710012 1.959990
Series也有一個元素級函式應用的方法map
In [49]: df['data1'] Out[49]: 0 -2.332263 1 -0.715245 2 -0.933356 3 0.757402 4 2.710012 Name: data1,dtype: float64 In [50]: df['data1'].map(f) Out[50]: 0 -1.332263 1 0.284755 2 0.066644 3 1.757402 4 3.710012 Name: data1,dtype: float64
3.分組運算
可以結合groupby與transform來方便地實現類似SQL中的聚合運算的操作:
df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())
在transform函式中x.sum()與x.count()與SQL類似,計算的是當前group中的和與數量,還可以將transform的結果作為一個一個對映來使用, 例如:
sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count()) df['col1'].map(sumcount)
對col1進行一個map,得到對應的col2的運算值。
4.聚合函式
結合groupby與agg實現SQL中的分組聚合運算操作,需要使用相應的聚合函式:
df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean,'col1_sum‘': sum},'col2': {'col2_count': count}})
上述程式碼生成了col1_mean,col1_sum與col2_count列。
示例2
In [52]: df.agg(['mean','sum']) Out[52]: data1 data2 mean -0.102690 0.581455 sum -0.513449 2.907274
函式 | 說明 |
---|---|
count | 分組中非Nan值的數量 |
sum | 非Nan值的和 |
mean | 非Nan值的平均值 |
median | 非Nan值的算術中間數 |
std,var | 標準差、方差 |
min,max | 非Nan值的最小值和最大值 |
prob | 非Nan值的積 |
first,last | 第一個和最後一個非Nan值 |
到此這篇關於Pandas對DataFrame單列/多列進行運算(map,apply,transform,agg)的文章就介紹到這了,更多相關Pandas map apply transform agg內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!