文章目錄

前言
推薦一個很好用的包 mlcrate
- 1.mlc.SuperPool

前言

寫這個的原因就是參加了一個kaggle比賽，2021 Human Protein Atlas - Single Cell Classification。這個比賽我們要使用公開資料集HPA資料集作為額外的參考資料，這部分的資料量比比賽給出的大得多，處理的過程中不使用多程序那真的太費時間了

推薦一個很好用的包 mlcrate

仔細查查相關知識就知道這個包在kaggle裡面挺常用的，不過用於我們日常處理資料也是非常方便。我以前經常用的multiprocessing.poolranhou

from multiprocessing. 
pool import Pool
def add(a,b):
	return a+b
 
p = Pool(processes=2)
hh = p.map(add, [[1, 2], [3,4]])
p.close()
p.join()

1.mlc.SuperPool

其實我就想指定它使用多程序。其他的什麼close，join我是不想寫的，而且能看到處理進度當然最好了。下面這個函式就能很好的實現，我們只需要指定程序數，輸入操作的函式還有輸入進函式的引數即可。

程式碼如下（示例）：

import mlcrate as mlc
def get_cell_images(data):
	pass
	
for 
 _, image_list in ss_df.iterrows():
    seg_list.append([_, image_list, suffix_name])
    
pool = mlc.SuperPool(8)
pool.map(get_cell_images, seg_list, description='get cell images')
print('\nsuccess!')

給個正在執行的截圖，可以明顯感覺快很多的。倍速級別加速處理。
在這裡插入圖片描述

python 如何使用多程序快速處理資料

文章目錄

前言

推薦一個很好用的包 mlcrate

1.mlc.SuperPool

python 如何使用多程序快速處理資料

python 多程序模式處理使用者需求

python 多程序佇列資料處理詳解

python 多程序和協程配合使用寫入資料

Python 多程序資料共享 multiprocessing Manager

python多程序併發demo例項解析

python多程序重複載入的解決方式

python多程序（加入程序池）操作常見案例

python 多程序並行程式設計 ProcessPoolExecutor的實現

python多程序間通訊程式碼例項

python多程序並行程式碼例項

Python多程序程式設計multiprocessing程式碼例項

Python多程序multiprocessing、程序池用法例項分析

Python多程序程式設計常用方法解析

python多程序主程序和子程序間共享和不共享全域性變數例項

python多程序使用函式封裝例項

python多程序下的生產者和消費者模型

Python多程序 - subprocess & multiprocess

python 如何使用多程序快速處理資料

文章目錄

前言

推薦一個很好用的包 mlcrate

1.mlc.SuperPool

相關推薦