1. 程式人生 > 程式設計 >Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg)

Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg)

1.單列運算

在Pandas中,DataFrame的一列就是一個Series,可以通過map來對一列進行操作:

df['col2'] = df['col1'].map(lambda x: x**2)

其中lambda函式中的x代表當前元素。可以使用另外的函式來代替lambda函式,例如:

define square(x): 
  return (x ** 2) 
 
df['col2'] = df['col1'].map(square) 

2.多列運算

apply()會將待處理的物件拆分成多個片段,然後對各片段呼叫傳入的函式,最後嘗試將各片段組合到一起。

要對DataFrame的多個列同時進行運算,可以使用apply,例如col3 = col1 + 2 * col2:

df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'],axis=1) 

其中x帶表當前行,可以通過下標進行索引。

示例2

In [44]: f = lambda x : x.max()-x.min()

In [45]: df.apply(f)
Out[45]:
data1  5.042275
data2  1.967290
dtype: float64

In [46]: df.apply(f,axis=1)
Out[46]:
0  2.810074
1  1.009774
2  0.537183
3  0.813714
4  1.750022
dtype: float64

applymap()

用DataFrame的applymap方法,可以將函式應用到元素級的資料上。

In [47]: f = lambda x : x+1

In [48]: df.applymap(f)
Out[48]:
   data1   data2
0 -1.332263 1.477812
1 0.284755 1.294528
2 0.066644 0.603827
3 1.757402 2.571117
4 3.710012 1.959990

Series也有一個元素級函式應用的方法map

In [49]: df['data1']
Out[49]:
0  -2.332263
1  -0.715245
2  -0.933356
3  0.757402
4  2.710012
Name: data1,dtype: float64

In [50]: df['data1'].map(f)
Out[50]:
0  -1.332263
1  0.284755
2  0.066644
3  1.757402
4  3.710012
Name: data1,dtype: float64

3.分組運算

可以結合groupby與transform來方便地實現類似SQL中的聚合運算的操作:

df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count()) 

在transform函式中x.sum()與x.count()與SQL類似,計算的是當前group中的和與數量,還可以將transform的結果作為一個一個對映來使用, 例如:

sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count()) 
df['col1'].map(sumcount) 

對col1進行一個map,得到對應的col2的運算值。

4.聚合函式

結合groupby與agg實現SQL中的分組聚合運算操作,需要使用相應的聚合函式:

df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean,'col1_sum‘': sum},'col2': {'col2_count': count}}) 

上述程式碼生成了col1_mean,col1_sum與col2_count列。

示例2

In [52]: df.agg(['mean','sum'])
Out[52]:
     data1   data2
mean -0.102690 0.581455
sum -0.513449 2.907274

函式 說明
count 分組中非Nan值的數量
sum 非Nan值的和
mean 非Nan值的平均值
median 非Nan值的算術中間數
std,var 標準差、方差
min,max 非Nan值的最小值和最大值
prob 非Nan值的積
first,last 第一個和最後一個非Nan值

到此這篇關於Pandas對DataFrame單列/多列進行運算(map,apply,transform,agg)的文章就介紹到這了,更多相關Pandas map apply transform agg內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!