什麼? 三行程式碼能讓我的資料處理快別人4倍? 快讓我瞧瞧!

阿新 • • 發佈：2019-01-07

Python是一門對於資料處理和自動化完成重複性工作非常有優勢的程式語言，我們常常在用資料訓練機器學習模型之前，通常都需要對資料進行預處理，而Python這方面就非常適合完成這項工作，比如需要重新調整幾十萬張影象的尺寸，用Python沒問題！

你幾乎總是能找到一款可以輕鬆完成資料處理工作的Python庫。

然而

雖然Python易於學習，使用方便，但它並非執行速度最快的語言。

預設情況下，Python程式使用一個CPU以單個程序執行。

不過如果你是在最近幾年配置的電腦，通常都是四核處理器，也就是有4個CPU。

這就意味著在你苦苦等待Python指令碼完成資料處理工作時

你的電腦其實有75%甚至更多的計算資源就在那閒著沒事幹！

今天就教大家怎樣通過並行執行Python函式，充分利用你的電腦的全部處理能力。

得益於Python的 concurrent.futures 模組，

我們只需3行程式碼

就能將一個普通資料處理指令碼變為能並行處理資料的指令碼，提速4倍。

普通Python處理資料方法

比方說：

我們有一個全是影象資料的資料夾，想用Python為每張影象建立縮圖。

下面是一個短暫的指令碼：

用Python的內建glob函式獲取資料夾中所有JPEG影象的列表，

然後用Pillow影象處理庫為每張影象儲存大小為128畫素的縮圖：

這段指令碼沿用了一個簡單的模式

你會在資料處理指令碼中經常見到這種方法：

首先獲得你想處理的檔案（或其它資料）的列表
寫一個輔助函式，能夠處理上述檔案的單個數據
使用for迴圈呼叫輔助函式，處理每一個單個數據，一次一個。

咱們用一個包含1000張JPEG影象的資料夾測試一下這段指令碼，

看看執行完要花多長時間：

執行程式花了8.9秒，但是電腦的真實工作強度怎樣呢？

我們再執行一遍程式

看看程式執行時的活動監視器情況：

電腦有75%的處理資源處於閒置狀態！這是什麼情況？

這個問題的原因就是我的電腦有4個CPU，但Python只使用了一個。

所以程式只是卯足了勁用其中一個CPU，另外3個卻無所事事。

因此我需要一種方法能將工作量分成4個我能並行處理的單獨部分。

幸運的是，Python中有個方法很容易能讓我們做到！

試試建立多程序

下面是一種可以讓我們並行處理資料的方法：

將JPEG檔案劃分為4小塊。執行Python直譯器的4個單獨例項。
讓每個Python例項處理這4塊資料中的一塊。
將這4部分的處理結果合併，獲得結果的最終列表。

4個Python拷貝程式在4個單獨的CPU上執行，

處理的工作量應該能比一個CPU大約高出4倍，

對吧？

最妙的是，Python已經替我們做完了最麻煩的那部分工作。

我們只需告訴它想執行哪個函式以及使用多少例項就行了，剩下的工作它會完成。

整個過程我們只需要改動3行程式碼。

首先

我們需要匯入concurrent.futures庫

這個庫就內建在Python中：

接著，我們需要告訴Python啟動4個額外的Python例項。

我們通過讓Python建立一個Process Pool來完成這一步：

預設情況下：

它會為你電腦上的每個CPU建立一個Python程序，

所以如果你有4個CPU，就會啟動4個Python程序。

最後一步：

讓建立的Process Pool用這4個程序在資料列表上執行我們的輔助函式。

完成這一步，我們要將已有的for迴圈：

替換為新的呼叫executor.map():

該executor.map()函式呼叫時需要輸入輔助函式和待處理的資料列表。

這個函式能幫我完成所有麻煩的工作

包括將列表分為多個子列表、將子列表傳送到每個子程序、執行子程序以及合併結果等。

幹得漂亮！

這也能為我們返回每個函式呼叫的結果。

Executor.map()函式會按照和輸入資料相同的順序返回結果。

所以我用了Python的zip()函式作為捷徑，一步獲取原始檔名和每一步中的匹配結果。

這裡是經過這三步改動後的程式程式碼：

我們來執行一下這段指令碼

看看它是否以更快的速度完成資料處理：

指令碼在2.2秒就處理完了資料！比原來的版本提速4倍！

之所以能更快的處理資料

是因為我們使用了4個CPU而不是1個。

但是

如果你仔細看看，會發現“使用者”時間幾乎為9秒。

那為何程式處理時間為2.2秒，但不知怎麼搞得執行時間還是9秒？

這似乎不太可能啊？

這是

因為“使用者”時間是所有CPU時間的總和，

我們最終完成工作的CPU時間總和一樣，都是9秒，

但我們使用4個CPU完成的，實際處理資料時間只有2.2秒！

注意：

啟用更多Python程序以及給子程序分配資料都會佔用時間，因此靠這個方法並不能保證總是能大幅提高速度。

這種方法總能幫我的資料處理指令碼提速嗎？

如果你有一列資料

並且每個資料都能單獨處理時，使用我們這裡所說的Process Pools是一個提速的好方法。

下面是一些適合使用並行處理的例子：

從一系列單獨的網頁伺服器日誌裡抓取統計資料。
從一堆XML，CSV和JSON檔案中解析資料。
對大量圖片資料做預處理，建立機器學習資料集。

但也要記住，Process Pools並不是萬能的。

使用Process Pool需要在獨立的Python處理程序之間來回傳遞資料。

如果你要處理的資料不能在處理過程中被有效地傳遞，這種方法就行不通了。

簡而言之，你處理的資料必須是Python知道怎麼應對的型別。

同時

也無法按照一個預想的順序處理資料。

如果你需要前一步的處理結果來進行下一步，這種方法也行不通。

那GIL的問題呢？

你可能知道Python有個叫全域性直譯器鎖（Global Interpreter Lock）的東西，即GIL。

這意味著即使你的程式是多執行緒的，每個執行緒也只能執行一個Python指令。

GIL確保任何時候都只有一個Python執行緒執行。

換句話說：

多執行緒的Python程式碼並不能真正地並行執行，從而無法充分利用多核CPU。

但是Process Pool能解決這個問題！

因為我們是執行單獨的Python例項，每個例項都有自己的GIL。

這樣我們獲得是真正能並行處理的Python程式碼！

不要害怕並行處理！

有了concurrent.futures庫

Python就能讓你簡簡單單地修改一下指令碼後，立刻讓你電腦上所有CPU投入到工作中。

不要害怕嘗試這種方法，一旦你掌握了

它就跟一個for迴圈一樣簡單

卻能讓你的資料處理指令碼快到飛起。

寫在最後：

想學Python或者對Python感興趣的老鐵，可以加群571799375，群裡有適合Python初學者學習的資料（最新版的Python資料），免費送給大家！

本文來自網路，如有侵權，請聯絡小編刪除！

什麼? 三行程式碼能讓我的資料處理快別人4倍? 快讓我瞧瞧!

Python是一門對於資料處理和自動化完成重複性工作非常有優勢的程式語言，我們常常在用資料訓練機器學習模型之前，通常都需要對資料進行預處理，而Python這方面就非常適合完成這項工作，比如需要重新調整幾十萬張影象的尺寸，用Python沒問題！你幾乎總是能找到一款可以輕鬆完成資料處理工作的Python庫。

用3行程式碼讓Python資料處理指令碼獲得4倍提速！

Python是一門非常適合處理資料和自動化完成重複性工作的程式語言，我們在用資料訓練機器學習模型之前，通常都需要對資料進行預處理，而Python就非常適合完成這項工作，比如需要重新調整幾十萬張影象的尺寸，用Python沒問題！你幾乎總是能找到一款可以輕鬆完成資料處理工作的Python庫。然而，

程式設計師放狠話：哥讓你三行程式碼!

我姓陳，叫程式設計師好了。（哈哈哈，原來程式設計師的名字是這樣來的，腦洞真是太大了。）出招吧，哥讓你三行程式碼。（厲害了，原來寫個程式碼也能有高低上下之分，不知道你讓的三行程式碼是按照你的顯示器來，還是按照我的39寸顯示器的來呢？）讓程式碼沒有bug，願世界和平。（如果希望程

python 三行程式碼實現快速排序

python 三行程式碼實現快速排序最近在看 python cookbook , 裡面的例子很精彩，這裡就幫過來，做個備忘錄主要利用了行數的遞迴呼叫和Python的切片特性，解釋一下每行程式碼的含義：第1行： #coding:utf-8 指定utf

python中三行程式碼搞定發郵件

一般發郵件方法我以前在通過Python實現自動化郵件功能的時候是這樣的： import smtplib from email.mime.text import MIMEText from email.header import Header # 傳送郵箱伺服器 smtpserver

MybatisPlus第三篇之如何使用三行程式碼完成(複雜條件)分頁(在此係列第二篇基礎上進行提升)

//1、pageNum：第幾頁；pageSize：一頁多少條 Page pages=new Page(Integer.parseInt(pageNum),Integer.parseInt(pageSize)); //2、定義條件接收處理，，，假設現在不需要條件 Wrapper w= new En

快速排序 python 三行程式碼

快速排序 def quick_sort(list_): if len(list_) < 2: return list_ return quick_sort([lt for lt in list_[1:] if lt <= list_[0]]) + list

10 行程式碼提取複雜 Excel 資料

10行程式碼提取複雜Excel資料　　把Excel檔案匯入關係資料庫是資料分析業務中經常要做的事情，但許多Excel檔案的格式並不規整，需要事先將其中的資料結構化後再用SQL語句寫入資料庫。而一般情況下，結構化的工作量會比較大，而且很難通用，每次都要針對檔案格式進行分析後再進

三行程式碼實現 JS 柯里化

最近有看到一些柯里化的文章，怎麼說呢，感覺很奇怪。一篇是阿里雲的譯文，文章末尾給出了這樣一個 "curry"： function curry(fn, ...args) { return (..._arg) => { return fn(...args, ..._arg);

PaddlePaddle 系列之三行程式碼從入門到精通

本文介紹 PaddlePaddle 系列之三行程式碼從入門到精通。前言這將是 PaddlePaddle 系列教程的開篇，屬於非官方教程。既然是非官方，自然會從一個使用者的角度出發，來教大家怎麼用，會有哪些坑，以及如何上手並用到實際專案中去。我之前寫過一些關於 tensorfl

學習筆記之——基於pytorch的SFTGAN（xintao程式碼學習，及資料處理部分的學習）

程式碼的框架仍然是——《https://github.com/xinntao/BasicSR》給出SFTGAN的論文《Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transfo

三行程式碼看懂Java構造方法鏈

Java構造方法鏈：當前類在操作自己建構函式時候（初始化物件），首先會檢查其父類的構造方法和靜態塊，如果存在則會先初始化父類的建構函式，同時，該類也會檢查是否存在父類有建構函式和靜態塊，如果存在同樣需要初始化，一直向上進行檢查，直到檢查為空。 /** * @author

【Android】三行程式碼實現一個輪播BannerView

自己簡單封裝了一個帶hint的輪播ViewPager，用來展示app首頁的Banner，先看效果圖吧。 ezgif-1-437f7aee24.gif dependencies（依賴） compile 'com.coldmoqiuli:banners:1.0.0'

閱讀程式碼—整理學習python資料處理1

import pandas as pd test_df = pd.read_csv("/Users/isabella/Downloads/test.csv") train_df = pd.read_csv("/Users/isabella/Downloads/train.csv") # 檢視每一列

python三行程式碼實現快速排序

def quick_sort(array): if len(array) < 2: return array return quick_sort([lt for lt in array[1:] if lt < array[0]]) + [array[0]] + quick

Swift幾行程式碼解決UITableView空資料檢視問題

tableView空資料問題一般專案中tableView若資料為空時會有一個提示示意圖為了更好的管理這種提示示意圖，筆者利用extension進行了簡單的拓展解決思路利用swift面向協議的特點，使用協議來進行設定。設計空檢視協議 tableView設定空檢視代理每次重繪tableView時判斷

10 遞迴 Recursion：如何用三行程式碼找到“最終推薦人”

之後的DFS深度優先搜尋、前中後序二叉樹遍歷等都要用到遞迴一、如何理解遞迴？遞推公式： f(n)=f(n-1)+1 其中，f(1)=1 遞迴程式碼： int f(int n) { if (n == 1) return 1; return f(n

Java三行程式碼搞定MD5加密

Get MD5 Hash In A Few Lines Of Java /** * 對字串md5加密 * * @param str * @return */ public String getMD5(String str) { String ret = null; try

算法系列-遞迴：如何利用三行程式碼“找到最終推薦人”

整理自極客時間-資料結構與演算法之美。原文內容更完整具體，且有音訊。購買地址：如何理解遞迴資料結構和演算法有兩個最難理解的知識點，一個是動態規劃，另一個就是遞迴。遞迴是一種應用非常廣泛的演算法（或者程式設計技巧）。之後我們要講的很多資料結構和演算法的編碼實現都要用到遞迴，

C#--三行程式碼帶你理解神祕的拆箱和裝箱

一、在說拆箱和裝箱之前的準備知識首先，我們需要知道C#中有兩種型別：值型別和引用型別名稱值型別引用型別表示型別基本型別類，陣列，介面，C#特有的委託. 儲存內容值值的引用儲存位

什麼? 三行程式碼能讓我的資料處理快別人4倍? 快讓我瞧瞧!

普通Python處理資料方法

試試建立多程序

這種方法總能幫我的資料處理指令碼提速嗎？

不要害怕並行處理！

寫在最後：

相關推薦