python-multiprocessing 多程序平行計算

阿新 • • 發佈：2019-02-14

python的multiprocessing包是標準庫提供的多程序平行計算包，提供了和threading（多執行緒）相似的API函式，但是相比於threading，將任務分配到不同的CPU，避免了GIL（Global Interpreter Lock）的限制。下面我們對multiprocessing中的Pool和Process類做介紹。

Pool

採用Pool程序池對任務並行處理更加方便，我們可以指定並行的CPU個數，然後 Pool 會自動把任務放到程序池中執行。 Pool 包含了多個並行函式。

apply apply_async

apply 要逐個執行任務，在python3中已經被棄用，而apply_async是apply的非同步執行版本。平行計算一定要採用apply_async函式。


import multiprocessing
import time

from random import randint, seed

def f(num):
    seed()
    rand_num = randint(0,10) # 每次都隨機生成一個停頓時間
    time.sleep(rand_num)
    return (num, rand_num)

start_time = time.time()
cores = multiprocessing.cpu_count()
pool = multiprocessing.Pool(processes=cores)
pool_list = []
result_list = []
start_time = time.time()
for 
 xx in xrange(10):
    pool_list.append(pool.apply_async(f, (xx, )))  # 這裡不能 get， 會阻塞程序

result_list = [xx.get() for xx in pool_list]
#在這裡不免有人要疑問，為什麼不直接在 for 迴圈中直接 result.get()呢？這是因為pool.apply_async之後的語句都是阻塞執行的，呼叫 result.get() 會等待上一個任務執行完之後才會分配下一個任務。事實上，獲取返回值的過程最好放在程序池回收之後進行，避免阻塞後面的語句。

# 最後我們使用一下語句回收程序池：    

pool.close()
pool.join()

print result_list
print '並行花費時間 %.2f' % (time.time() - start_time)
print '序列花費時間 %.2f' % (sum([xx[1] for xx in  result_list]))

#[(0, 8), (1, 2), (2, 4), (3, 9), (4, 0), (5, 1), (6, 8), (7, 3), (8, 4), (9, 6)]
#並行花費時間 14.11
#序列花費時間 45.00

map map_async

map_async 是 map的非同步執行函式。
相比於 apply_async, map_async 只能接受一個引數。


import time
from multiprocessing import Pool
def run(fn):
  #fn: 函式引數是資料列表的一個元素
  time.sleep(1)
  return fn*fn

if __name__ == "__main__":
  testFL = [1,2,3,4,5,6]  
  print '序列:' #順序執行(也就是序列執行，單程序)
  s = time.time()
  for fn in testFL:
    run(fn)

  e1 = time.time()
  print "順序執行時間：", int(e1 - s)

  print '並行:' #建立多個程序，並行執行
  pool = Pool(4)  #建立擁有5個程序數量的程序池
  #testFL:要處理的資料列表，run：處理testFL列表中資料的函式
  rl =pool.map(run, testFL) 
  pool.close()#關閉程序池，不再接受新的程序
  pool.join()#主程序阻塞等待子程序的退出
  e2 = time.time()
  print "並行執行時間：", int(e2-e1)
  print rl

# 序列:
# 順序執行時間： 6
# 並行:
# 並行執行時間： 2
# [1, 4, 9, 16, 25, 36]

Process

採用Process必須注意的是，Process物件來建立程序，每一個程序佔據一個CPU，所以要建立的程序必須小於等於 CPU的個數。如果啟動程序數過多，特別是當遇到CPU密集型任務，會降低並行的效率。

#16.6.1.1. The Process class
from multiprocessing import Process, cpu_count
import os
import time

start_time = time.time()
def info(title):
#     print(title)
    if hasattr(os, 'getppid'):  # only available on Unix
        print 'parent process:', os.getppid()
    print 'process id:', os.getpid()
    time.sleep(3)

def f(name):
    info('function f')
    print 'hello', name

if __name__ == '__main__':
#     info('main line')
    p_list = [] # 儲存Process新建的程序
    cpu_num = cpu_count()
    for xx in xrange(cpu_num):
        p_list.append(Process(target=f, args=('xx_%s' % xx,)))
    for xx in p_list:
        xx.start()

    for xx in p_list:
        xx.join()
    print('spend time: %.2f' % (time.time() - start_time))
parent process: 11741
# parent process: 11741
# parent process: 11741
# process id: 12249
# process id: 12250
# parent process: 11741
# process id: 12251
# process id: 12252
# hello xx_1
# hello xx_0
# hello xx_2
# hello xx_3
# spend time: 3.04

程序間通訊

Process和Pool均支援Queues 和 Pipes 兩種型別的通訊。

Queue 佇列

佇列遵循先進先出的原則，可以在各個程序間使用。


# 16.6.1.2. Exchanging objects between processes
# Queues

from multiprocessing import Process, Queue

def f(q):
    q.put([42, None, 'hello'])

if __name__ == '__main__':
    q = Queue()
    p = Process(target=f, args=(q,))
    p.start()
    print q.get()    # prints "[42, None, 'hello']"
    p.join()

pipe

from multiprocessing import Process, Pipe

def f(conn):
    conn.send([42, None, 'hello'])
    conn.close()

if __name__ == '__main__':
    parent_conn, child_conn = Pipe()
    p = Process(target=f, args=(child_conn,))
    p.start()
    print parent_conn.recv()   # prints "[42, None, 'hello']"
    p.join()

queue 與 pipe比較

Pipe() can only have two endpoints.
Queue() can have multiple producers and consumers.
When to use them

If you need more than two points to communicate, use a Queue().

If you need absolute performance, a Pipe() is much faster because Queue() is built on top of Pipe().

共享資源

多程序應該避免共享資源。在多執行緒中，我們可以比較容易地共享資源，比如使用全域性變數或者傳遞引數。在多程序情況下，由於每個程序有自己獨立的記憶體空間，以上方法並不合適。此時我們可以通過共享記憶體和Manager的方法來共享資源。但這樣做提高了程式的複雜度，並因為同步的需要而降低了程式的效率。

共享記憶體

共享記憶體僅適用於 Process 類，不能用於程序池 Pool

# 16.6.1.4. Sharing state between processes
# Shared memory
from multiprocessing import Process, Value, Array

def f(n, a):
    n.value = 3.1415927
    for i in range(len(a)):
        a[i] = -a[i]

if __name__ == '__main__':
    num = Value('d', 0.0)
    arr = Array('i', range(10))

    p = Process(target=f, args=(num, arr))
    p.start()
    p.join()

    print num.value
    print arr[:]

# 3.1415927
# [0, -1, -2, -3, -4, -5, -6, -7, -8, -9]

Manager Class

Manager Class 既可以用於Process 也可以用於程序池 Pool。


from multiprocessing import Manager, Process
def f(d, l, ii):
    d[ii] = ii
    l.append(ii)

if __name__ == '__main__':
    manager = Manager()

    d = manager.dict()
    l = manager.list(range(10))
    p_list = [] 
    for xx in range(4):
        p_list.append(Process(target=f, args=(d, l, xx)))
    for xx in p_list:
        xx.start()

    for xx in p_list:
        xx.join()
    print d
    print l
# {0: 0, 1: 1, 2: 2, 3: 3}
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3]

python-multiprocessing 多程序平行計算

python的multiprocessing包是標準庫提供的多程序平行計算包，提供了和threading（多執行緒）相似的API函式，但是相比於threading，將任務分配到不同的CPU，避免了GIL（Global Interpreter Lock）的限制。下

Python multiprocessing 多程序鎖程序間傳遞Lock 遇到的問題

無法傳遞 Lock物件 from multiprocessing import Pool,Lock def text(i,lock): print(i) lock.acquire() DOSOMETHING lock.release() if __na

python之多程序模組multiprocessing

程序： python裡程序是multiprocessing模組用法和多執行緒沒有什麼區別（os.getpid()是獲得程序號，ppid是父程序號） import time ,os import multiprocessing def f(name): time.sleep(

python多程序———9、multiprocessing多程序程式設計

python多程序的multiprocessing的用法跟多執行緒threading的用法基本差不多，直接上程式碼吧 import multiprocessing import os import time #fork()只能在linux中使用 # pid = os.fork

Python 之多程序 multiprocessing.Pool 類

multiprocessing包是Python中的多程序管理包。它與 threading.Thread類似，可以利用multiprocessing.Process物件來建立一個程序。該程序可以允許放在Python程式內部編寫的函式中。該Process物件與Thread物件的用

python中多程序（multiprocessing）

python中多程序（multiprocessing）一、multiprocessing中使用子程序概念 from multiprocessing import Process 可以通過Process來構造一個子程序 p = Process(target=fun,args=(arg

python爬蟲——多程序multiprocessing

其實多程序相對來說不是特別適合用來做爬蟲，因為多程序比較適用於計算密集型，而爬蟲是IO密集型，因此多程序爬蟲對速度的提升不是特別明顯，但是將爬蟲改為多程序比較簡單，只需簡單的幾行程式碼即可搞定，所以在修改我的爬蟲提升效率時，我最先實現的是多程序爬蟲。（然而速度真

Python中多程序的使用 Python的多執行緒（threading）與多程序（multiprocessing ）示例程式碼 Python多程序程式設計

程序：程式的一次執行（程式載入記憶體，系統分配資源執行）。每個程序有自己的記憶體空間，資料棧等，程序之間可以進行通訊，但是不能共享資訊。執行緒：所有的執行緒執行在同一個程序中，共享相同的執行環境。每個獨立的執行緒有一個程式入口，順序執行序列和程式的出口。執行緒的執行可以被強佔，中斷或者暫時被

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

什麼是多執行緒/多程序引用蟲師的解釋：計算機程式只不過是磁碟中可執行的，二進位制（或其它型別）的資料。它們只有在被讀取到記憶體中，被作業系統呼叫的時候才開始它們的生命期。程序（有時被稱為重量級程序）是程式的一次執行。每個程序都有自己的地址空間，記憶體，資料棧以及其它記錄其執行軌跡的輔助資料

python-multiprocessing 多程序平行計算

Pool

apply apply_async

map map_async

Process

程序間通訊

Queue 佇列

pipe

queue 與 pipe比較

共享資源

共享記憶體

Manager Class

python-multiprocessing 多程序平行計算

Python multiprocessing 多程序鎖程序間傳遞Lock 遇到的問題

python之多程序模組multiprocessing

python多程序———9、multiprocessing多程序程式設計

Python 之多程序 multiprocessing.Pool 類

python中多程序（multiprocessing）

python爬蟲——多程序multiprocessing

Python中多程序的使用 Python的多執行緒（threading）與多程序（multiprocessing ）示例程式碼 Python多程序程式設計

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

Python 多核平行計算

【Python】【平行計算】Python 多核平行計算

Python學習多程序併發寫入同一檔案

python mutilprocessing多程序程式設計

程序與執行緒（2）- python實現多程序

python的多程序應用--讀取儲存圖片

python使用多程序

多執行緒與多程序及Python實現【Python實現多程序】

keras tensorflow 在python下多程序執行

GPU】基於Python的GPU加速平行計算 -- pyCUDA

python-->多程序

python-multiprocessing 多程序平行計算

Pool

apply apply_async

map map_async

Process

程序間通訊

Queue 佇列

pipe

queue 與 pipe比較

共享資源

共享記憶體

Manager Class

相關推薦