python並行程式設計 - 分散式篇
目錄1
簡述
分散式計算的基本理念是將工作劃分為一個一個小任務,分發給多臺裝置處理,再彙總結果。在分散式計算中,網路中的機器必須要保持可用(延遲誤差、意外宕機等等),需要一個持續監控架構
分散式多程序2
multiprocessing
的子模組managers
還支援把多程序分佈在多臺機器上,managers
模組已經封裝好了網路通訊的細節
實現方法:我們可以使用managers
模組將queue
佇列通過網路暴露出去,讓其它機器訪問到這個佇列,然後就可以通過它實現資料交換
示例:
伺服器通過暴露queue到網路,放入資料到佇列,讓客戶端取出資料處理,再放回結果
伺服器程式碼
# task_master.py
import random, time, queue
from multiprocessing.managers import BaseManager
# 傳送任務的佇列:
task_queue = queue.Queue()
# 接收結果的佇列:
result_queue = queue.Queue()
# 從BaseManager繼承的QueueManager:
class QueueManager(BaseManager):
pass
# 把兩個Queue都註冊到網路上, callable引數關聯了Queue物件:
QueueManager. register('get_task_queue', callable=lambda: task_queue)
QueueManager.register('get_result_queue', callable=lambda: result_queue)
# 繫結埠5000, 設定驗證碼'abc':
manager = QueueManager(address=('', 5000), authkey=b'abc')
# 啟動Queue:
manager.start()
# 獲得通過網路訪問的Queue物件:
task = manager.get_task_queue()
result = manager. get_result_queue()
# 放幾個任務進去:
for i in range(10):
n = random.randint(0, 10000)
print('Put task %d...' % n)
task.put(n)
# 從result佇列讀取結果:
print('Try get results...')
for i in range(10):
r = result.get(timeout=10)
print('Result: %s' % r)
# 關閉:
manager.shutdown()
print('master exit.')
客戶端程式碼
# task_worker.py
import time, sys, queue
from multiprocessing.managers import BaseManager
# 建立類似的QueueManager:
class QueueManager(BaseManager):
pass
# 由於這個QueueManager只從網路上獲取Queue,所以註冊時只提供名字:
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')
# 連線到伺服器,也就是執行task_master.py的機器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 埠和驗證碼注意保持與task_master.py設定的完全一致:
m = QueueManager(address=(server_addr, 5000), authkey=b'abc')
# 從網路連線:
m.connect()
# 獲取Queue的物件:
task = m.get_task_queue()
result = m.get_result_queue()
# 從task佇列取任務,並把結果寫入result佇列:
for i in range(10):
try:
n = task.get(timeout=1)
print('run task %d * %d...' % (n, n))
r = n*n
time.sleep(1)
result.put(r)
except Queue.Empty:
print('task queue is empty.')
# 處理結束:
print('worker exit.')
分散式架構庫
這篇僅是簡單的分散式的簡單操作,更多詳情,搜尋以下的內容作為關鍵字
使用面向物件模式和遠端呼叫模式實現分散式框架的庫,如Celery、SCOOP、Pyro4、RPyC,還有使用MapReduce實現的PyCSP、Disco
Celery:是一個用於管理分散式任務的Python框架
SCOOP:(Scalable Concurrent Operations in Python)用於進行科學計算
Pyro4:(Python Remote Object)遠端呼叫方法,類似於java中遠端方法呼叫(RMI)的庫,支援呼叫遠端物件(屬於不同程序,或不同機器上)的方法,就好像它是本地物件
PyCSP:是基於通訊的順序程序(communicating sequential processes,簡稱CSP)的一個Python模組,它是通過訊息傳遞方式構建併發程式的一種程式設計正規化,特點:程序間的訊息交換、通過執行緒使用共享記憶體、通過通道完成資訊交換
Disco:是一個基於谷歌推出的MapReduce框架的Python模組,支援在計算機叢集中管理大規模分散式資料
參考書籍:《Python並行程式設計手冊》 ↩︎
這段程式碼完全參考:廖雪峰 -分散式程序 https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431929340191970154d52b9d484b88a7b343708fcc60000 ↩︎