python 如何使用多程序快速處理資料
阿新 • • 發佈:2021-03-16
文章目錄
前言
寫這個的原因就是參加了一個kaggle比賽,2021 Human Protein Atlas - Single Cell Classification。這個比賽我們要使用公開資料集HPA資料集作為額外的參考資料,這部分的資料量比比賽給出的大得多,處理的過程中不使用多程序那真的太費時間了
推薦一個很好用的包 mlcrate
仔細查查相關知識就知道這個包在kaggle裡面挺常用的,不過用於我們日常處理資料也是非常方便。我以前經常用的multiprocessing.poolranhou
from multiprocessing. pool import Pool
def add(a,b):
return a+b
p = Pool(processes=2)
hh = p.map(add, [[1, 2], [3,4]])
p.close()
p.join()
1.mlc.SuperPool
其實我就想指定它使用多程序。其他的什麼close,join我是不想寫的,而且能看到處理進度當然最好了。下面這個函式就能很好的實現,我們只需要指定程序數,輸入操作的函式還有輸入進函式的引數即可。
程式碼如下(示例):
import mlcrate as mlc
def get_cell_images(data):
pass
for _, image_list in ss_df.iterrows():
seg_list.append([_, image_list, suffix_name])
pool = mlc.SuperPool(8)
pool.map(get_cell_images, seg_list, description='get cell images')
print('\nsuccess!')
給個正在執行的截圖,可以明顯感覺快很多的。倍速級別加速處理。