pandas中apply和transform方法的效能比較

阿新 • • 發佈：2018-12-18

1. apply與transform

首先講一下apply() 與transform()的相同點與不同點

相同點：

都能針對dataframe完成特徵的計算，並且常常與groupby()方法一起使用。

不同點：

apply()裡面可以跟自定義的函式，包括簡單的求和函式以及複雜的特徵間的差值函式等（注：apply不能直接使用agg()方法 / transform()中的python內建函式，例如sum、max、min、’count‘等方法）

transform() 裡面不能跟自定義的特徵互動函式，因為transform是真針對每一元素（即每一列特徵操作）進行計算，也就是說在使用 transform() 方法時，需要記得三點：

1、它只能對每一列進行計算，所以在groupby()之後，.transform()之前是要指定要操作的列，這點也與apply有很大的不同。

2、由於是隻能對每一列計算，所以方法的通用性相比apply()就侷限了很多，例如只能求列的最大/最小/均值/方差/分箱等操作

3、transform還有什麼用呢?最簡單的情況是試圖將函式的結果分配回原始的dataframe。也就是說返回的shape是（len(df)，1）。注：如果與groupby()方法聯合使用，需要對值進行去重

2. 各方法耗時

分別計算在同樣簡單需求下各組合方法的計算時長

2.1 transform() 方法+自定義函式

2.2 transform() 方法+python內建方法

2.3 apply() 方法+自定義函式

2.4 agg() 方法+自定義函式

2.5 agg() 方法+python內建方法

2.6 結論

agg()+python內建方法的計算速度最快，其次是transform()+python內建方法。而 transform() 方法+自定義函式的組合方法最慢，需要避免使用！
而下面兩圖中紅框內容可觀察發現：python自帶的stats統計模組在pandas結構中的計算也非常慢，也需要避免使用！

3. 例項分析

需求：計算每個使用者每天

某種行為消費次數、消費總額、消費均額、消費最大額、消費最小額

在幾個終端支付、最常支付終端號、最常支付終端號的支付次數、最少支付終端號、最少支付終端號的支付次數

某種行為最常消費發生時間段、最常消費發生時間段的消費次數、最少消費發生時間段、最少消費發生時間段的消費次數

某種行為最早消費時間、最晚消費時間

原始資料資訊：306626 x 9

具體選擇哪種方法處理，根據實際情況確定，在面對複雜計算時，transform() 與apply()結合使用往往會有意想不到的效果！

需要注意的是，在與apply()一起使用時，transform需要進行去重操作，一般是通過指定一或多個列完成。

此外，匿名函式永遠不是一個很好的辦法，在進行簡單計算時，無論是使用transfrom、agg還是apply，都要儘可能使用自帶方法！！！

4. 小技巧

在使用apply()方法處理大資料級時，可以考慮使用joblib中的多執行緒/多程序模組構造相應函式執行計算，以下分別是採用多程序和單程序的耗時時長。

可以看到，在260W的資料集上，多程序比單程序的計算速度可以提升約17%~61% 。

pandas中apply和transform方法的效能比較

1. apply與transform 首先講一下apply() 與transform()的相同點與不同點相同點：都能針對dataframe完成特徵的計算，並且常常與groupby()方法一起使用。不同點： apply()裡面可以跟自定義的函式，包括簡單的求和函式以及複雜的特徵間的差值函式等（注：appl

java中compareTo和compare方法之比較

這兩個方法經常搞混淆，現對其進行總結以加深記憶。 compareTo(Object o)方法是java.lang.Comparable介面中的方法，當需要對某個類的物件進行排序時，該類需要實現Comparable介面的，必須重寫public int compar

前端學習筆記之js中apply()和call()方法詳解

經過網上的大量搜尋，漸漸明白了apply()和call方法的使用，為此寫一篇文章記錄一下。定義 apply()方法： Function.apply(obj,args)

pandas中apply()方法的用法

apply有點像map的用法，可以傳入一個函式。 import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read_csv('apply_demo.csv').head(

js中call,apply和bind方法的區別和使用場景

在js中，所有的函式再被呼叫的時候都會預設傳入兩個引數，一個是this，還有一個是arguments。在預設情況下this都是指當前的呼叫函式的物件。但是有時候我們需要改變this的指向，也就是說使函式可以被其他物件來呼叫，那麼我們應該怎樣做呢？這時候我們就可以使用call,

js向一個數組中插入元素的幾個方法-效能比較

向一個數組中插入元素是平時很常見的一件事情。你可以使用push在陣列尾部插入元素,可以用unshift在陣列頭部插入元素,也可以用splice在陣列中間插入元素。但是這些已知的方法，並不意味著沒有更加高效的方法。讓我們接著往下看…… 向陣列結尾新增元素向陣列結尾新增元素用push()

js中apply和call的使用方法

（18.12.26） js中apply和call的使用方法 call：呼叫一個函式在一個指定的執行上下文中，和提供引數。 function fn(more) { console.log(this.age); console.log(this.name);

js中的call()方法、apply()和bind()方法的區別以及使用場景

在js中，所有的函式再被呼叫的時候都會預設傳入兩個引數，一個是this，還有一個是arguments。在預設情況下this都是指當前的呼叫函式的物件。但是有時候我們需要改變this的指向，也就是說使函式可以被其他物件來呼叫，那麼我們應該怎樣做呢？這時候我們就可以使用call,apply和bi

java中的get和set方法（比較詳細）

屬性的訪問器包含與獲取（讀取或計算）或設定（寫）屬性有關的可執行語句。訪問器宣告可以包含 get 訪問器或 set 訪問器，或者兩者均包含。宣告採用下列形式之一： set {accessor-body} get {accessor-body} 其中： accessor-bod

IOS學習 iOS中集合遍歷方法的比較和技巧

遍歷的目的是獲取集合中的某個物件或執行某個操作，所以能滿足這個條件的方法都可以作為備選：經典for迴圈 for in (NSFastEnumeration)，若不熟悉可以參考《nshipster介紹NSFastEnumeration的文章》 makeObjectsPerformSelector kv

【Objective-C】05-OC物件中類方法和物件方法的比較

一、類方法 1.1 噹噹前方法中不涉及類的成員變數時，可以把方法宣告成類方法。這樣做的好處是可以不用宣告類的例項物件，減少記憶體空間的佔用，提高執行效率。即類的方法不依賴於物件。 1.2 以加號 + 開頭 1.3 只能由類（名）來呼叫 1.4 類方法中不能訪問類的成員變

關於Unity中RectTransform和Transform

unit 顯示 tor orm his bsp nsf 強制 rec 以前一直以為在Inspector面板上的是Transform，後來才發現原來是RectTransform 而我們平時用來聯系節點之間的Transform其實是隱藏的組件，不在面板上顯示，面板上顯示的是

servlet表單中get和post方法的區別

pos span 轉化不可見上傳文件 post div font 支持 Form中的get和post方法，在數據傳輸過程中分別對應了HTTP協議中的GET和POST方法。二者主要區別如下：1、Get是用來從服務器上獲得數據，而Post是用來向服務器上傳遞數據。2、Get

Java中wait和sleep方法的區別

lee join 告訴 inter art 過程 lam 兩個一次 1、兩者的區別這兩個方法來自不同的類分別是Thread和Object 最主要是sleep方法沒有釋放鎖，而wait方法釋放了鎖，使得其他線程可以使用同步控制塊或者方法(鎖代碼塊和方法鎖)。 w

淺析c#中==操作符和equals方法

邏輯 mce 需求 ram margin width 通過否則可用　　在之前的文章中，我們講到了使用C#中提供的Object類的虛Equals方法來判斷Equality，但實際上它還提供了另外一種判斷Equality的方法，那就是使用==運算符。許多童鞋也許會想當然的

java 中sendredirect()和forward()方法的區別

rect 次數報錯 nec 重定向 web服務單獨 exception aca 一.文章1 HttpServletResponse.sendRedirect與RequestDispatcher.forward方法都可以實現獲取相應URL資源。 sendRedirect

String 類型equals方法和int == 方法效率比較

方法新建錯誤 == 總數進行差距拆裝箱自己最近寫了一個遞歸方法，在進行比較判斷的時候，因為都是integer類型，而integer類型在大於127或者小於-128時會在新建一個，這是因為integer類型的拆裝箱機制，之前沒有考慮過equals方法和 =

Android SharedPreferences中apply和commit的效率差距

Android SharedPreferences中apply和commit的效率差距經常看到它倆的速度有差別，apply和commit。到底差距多少，下面做一個統計。 apply commit 500次/平均每次消耗

javascript中encodeURI和decodeURI方法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

pandas中Series()和DataFrame()的區別與聯絡

區別： series，只是一個一維資料結構，它由index和value組成。 dataframe，是一個二維結構，除了擁有index和value之外，還擁有column。聯絡： dataframe由多個series組成，無論是行還是列，單獨拆分出來都是一個series。程式碼演示：

pandas中apply和transform方法的效能比較

1. apply與transform

2. 各方法耗時

2.1 transform() 方法+自定義函式

2.2 transform() 方法+python內建方法

2.3 apply() 方法+自定義函式

2.4 agg() 方法+自定義函式

2.5 agg() 方法+python內建方法

2.6 結論

3. 例項分析

4. 小技巧

相關推薦