pandas之使用自定義函式

阿新 • • 發佈：2021-12-05

如果想要應用自定義的函式，或者把其他庫中的函式應用到 Pandas 物件中，有以下三種方法：

1)操作整個 DataFrame 的函式：pipe()
2)操作行或者列的函式：apply()
3)操作單一元素的函式：applymap()

如何從上述函式中選擇適合的函式，這取決於函式的操作物件。下面介紹了三種方法的使用。

操作整個資料表

通過給 pipe() 函式傳遞一個自定義函式和適當數量的引數值，從而操作 DataFrme 中的所有元素。下面示例，實現了資料表中的元素值依次加 3。

首先自定義一個函式，計算兩個元素的加和，如下所示：

def adder(ele1,ele2):
return ele1+ele2

然後使用自定義的函式對 DataFrame 進行操作：

df = pd.DataFrame(np.random.randn(4,3,columns=['c1','c2','c3'])
#傳入自定義函式以及要相加的數值3
df.pipe(adder,3)

完整的程式，如下所示：

import pandas as pd
import numpy as np
#自定義函式
def adder(ele1,ele2):
return ele1+ele2
#操作DataFrame
df = pd.DataFrame(np.random.randn(4,3),columns=['c1','c2','c3'])
#相加前
print(df)
#相加後
print(df.pipe(adder,3))

輸出結果：

 c1 c2 c3
0 1.989075 0.932426 -0.523568
1 -1.736317 0.703575 -0.819940
2 0.657279 -0.872929 0.040841
3 0.441424 1.170723 -0.629618
 c1 c2 c3
0 4.989075 3.932426 2.476432
1 1.263683 3.703575 2.180060
2 3.657279 2.127071 3.040841
3 3.441424 4.170723 2.370382

操作行或列

如果要操作 DataFrame 的某一行或者某一列，可以使用 apply() 方法，該方法與描述性統計方法類似，都有可選引數 axis，並且預設按列操作。示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
df.apply(np.mean)
#預設按列操作，計算每一列均值
print(df.apply(np.mean))

輸出結果：

col1    0.277214
col2    0.716651
col3   -0.250487
dtype: float64

傳遞軸參 axis=1，表示逐行進行操作，示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(df)
print (df.apply(np.mean,axis=1))

輸出結果：

 col1 col2 col3
0 0.210370 -0.662840 -0.281454
1 -0.875735 0.531935 -0.283924
2 1.036009 -0.958771 -1.048961
3 -1.266042 -0.257666 0.403416
4 0.496041 -1.071545 1.432817

0 -0.244641
1 -0.209242
2 -0.323908
3 -0.373431
4 0.285771
dtype: float64

求每一列中，最大值與最小值之差。示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(df.apply(lambda x: x.max() - x.min()))

輸出結果:

col1    3.538252
col2    2.904771
col3    2.650892
dtype: float64

操作單一元素

DataFrame 資料表結構的 applymap() 和 Series 系列結構的 map() 類似，它們都可以接受一個 Python 函式，並返回相應的值。

示例如下：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
#自定義函式lambda函式
print(df['col1'].map(lambda x:x*100))

輸出結果：

0    -18.171706
1      1.582861
2     22.398156
3     32.395690
4   -133.143543
Name: col1, dtype: float64

下面示例使用了 applymap() 函式，如下所示：

import pandas as pd
import numpy as np
#自定義函式
df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3'])
print(df.applymap(lambda x:x*10))
print(df.apply(np.mean))

輸出結果：

        col1       col2       col3
0  -1.055926   7.952690  15.225932
1   9.362457 -12.230732   7.663450
2   2.910049  -2.782934   2.073905
3 -12.008132  -1.444989   5.988144
4   2.877850   6.563894   8.192513
#求均值：
col1    0.041726
col2   -0.038841
col3    0.782879
dtype: float64

python 3 基礎之自定義函式

函式 1、什麼是函式函式是組織好的，可重複使用的，用來實現單一，或相關聯功能的程式碼段。

Python之自定義函式

函式 1、定義函式在Python中定義一個函式要使用def語句，一次寫出函式名、括號、括號中的的引數和冒號，然後在縮排塊中編寫函式體，函式的返回值用return返回。如下所示：

mysql之自定義函式

引言　　MySQL本身提供了內建函式，這些函式的存在給我們日常的開發和資料操作帶來了很大的便利，比如我前面提到過的聚合函式SUM()、AVG()以及日期時間函式等等，可是我們總會出現其他的需求：我們需要呼叫一個函式

Jmeter二次開發之自定義函式

一、專案建立使用Idea建立一個maven專案，maven模板選擇空白，點選next直到專案建立成功

153-模型-日期表相容農曆之自定義函式 fxCalendar

153-模型-日期表相容農曆之自定義函式 fxCalendar 一、背景我們在做 Power BI 或者 Power Pivot 專案時候，幾乎每個模型都會遇到的一個維度表，這個維度表就是日期表（Calendar），日期表對 DAX 建模有舉足輕重的作

pandas之使用自定義函式

如果想要應用自定義的函式，或者把其他庫中的函式應用到 Pandas 物件中，有以下三種方法：

Python pandas自定義函式的使用方法示例

本文例項講述了Python pandas自定義函式的使用方法。分享給大家供大家參考，具體如下：

Keras之自定義損失(loss)函式用法說明

在Keras中可以自定義損失函式，在自定義損失函式的過程中需要注意的一點是，損失函式的引數形式，這一點在Keras中是固定的，須如下形式：

MySQL學習筆記之MySQL自定義函式

一、什麼是函式函式儲存著一系列sql語句，呼叫函式就是一次性執行這些語句。所以函式可以降低語句重複。【但注意的是函式注重返回值，不注重執行過程，所以一些語句無法執行。所以函式並不是單純的sql語句集合。】

python 之使用者自定義函式

什麼是函式？函式無非就是將程式碼塊進行封裝，想用的時候拿來用，減少程式碼量，提高效率。

SparkSQL重點知識之自定義UDF函式

技術標籤：Spark 簡介: 無論Hive還是SparkSQL分析處理資料時，往往需要使用函式，SparkSQL模組本身自帶很多實現公共功能的函式，在org.apache.spark.sql.functions中。SparkSQL與Hive一樣支援定義函式：UDF和UDA

SpringBoot之自定義註解掃描器@XXXScan

前言: 最近在學習Netty的過程中，跟著前輩們的思路用Netty作為底層通訊開發了一個非常牛逼，宇宙第一(實際超級垃圾)的Netty Rpc Demo。為啥不叫框架叫Demo呢，一個好的框架是需要非常長時間的開發和優化的，離不開大

SpringBoot系列教程web篇之自定義異常處理HandlerExceptionResolver

關於Web應用的全域性異常處理，上一篇介紹了ControllerAdvice結合@ExceptionHandler的方式來實現web應用的全域性異常管理；

新增 Hive 自定義函式

使用 Java 編寫好 UDF 或 UDAF 函式後，Hive 要如何使用這些自定義函式呢？ 1 在 HDFS 上建立存放 jar 包的目錄

Springboot之自定義全域性異常處理

本文首發至java技術部落格[碼上]：jdkcb.com/ 前言：在實際的應用開發中，很多時候往往因為一些不可控的因素導致程式出現一些錯誤，這個時候就要及時把異常資訊反饋給客戶端，便於客戶端能夠及時地進行處理，而針對

Android之自定義實現BaseAdapter（通用介面卡三）

在上一篇中，我們說過，在setData中如果有很多控制元件的話，我們還是要在該方法中寫入很多程式碼，為了降低開發的方便性，本次就在此基礎上再一次優化。實現原理是這樣的，每次在setData中都要查詢控制元件，然後se

Java自定義函式呼叫方法解析

這篇文章主要介紹了java自定義函式呼叫方法解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

MySQL通過自定義函式實現遞迴查詢父級ID或者子級ID

背景: 在MySQL中如果是有限的層次，比如我們事先如果可以確定這個樹的最大深度,那麼所有節點為根的樹的深度均不會超過樹的最大深度，則我們可以直接通過left join來實現。

MySQL自定義函式和儲存過程示例詳解

前言本文主要給大家介紹的是關於MySQL自定義函式和儲存過程的相關內容，分享出來供大家參考學習，下面話不多說了，來一起看看詳細的介紹吧

MySQL自定義函式簡單用法示例

本文例項講述了MySQL自定義函式用法。分享給大家供大家參考，具體如下：先來一個簡單的，建立一個函式將\'2009-06-23 00:00:00\'這樣格式的datetime時間轉化為\'2009年6月23日0時0分0秒\'這樣的格式：

pandas之使用自定義函式

操作整個資料表

操作行或列

操作單一元素

相關推薦