1. 程式人生 > 其它 >python 如何使用多程序快速處理資料

python 如何使用多程序快速處理資料

文章目錄


前言

寫這個的原因就是參加了一個kaggle比賽,2021 Human Protein Atlas - Single Cell Classification。這個比賽我們要使用公開資料集HPA資料集作為額外的參考資料,這部分的資料量比比賽給出的大得多,處理的過程中不使用多程序那真的太費時間了


推薦一個很好用的包 mlcrate

仔細查查相關知識就知道這個包在kaggle裡面挺常用的,不過用於我們日常處理資料也是非常方便。我以前經常用的multiprocessing.poolranhou

from multiprocessing.
pool import Pool def add(a,b): return a+b p = Pool(processes=2) hh = p.map(add, [[1, 2], [3,4]]) p.close() p.join()

1.mlc.SuperPool

其實我就想指定它使用多程序。其他的什麼close,join我是不想寫的,而且能看到處理進度當然最好了。下面這個函式就能很好的實現,我們只需要指定程序數,輸入操作的函式還有輸入進函式的引數即可。

程式碼如下(示例):

import mlcrate as mlc
def get_cell_images(data):
	pass
	
for
_, image_list in ss_df.iterrows(): seg_list.append([_, image_list, suffix_name]) pool = mlc.SuperPool(8) pool.map(get_cell_images, seg_list, description='get cell images') print('\nsuccess!')

給個正在執行的截圖,可以明顯感覺快很多的。倍速級別加速處理。
在這裡插入圖片描述