1. 程式人生 > >python並行程式設計 - 分散式篇

python並行程式設計 - 分散式篇

目錄1

介紹篇
執行緒篇
程序篇
非同步篇
GPU篇
分散式篇


簡述

分散式計算的基本理念是將工作劃分為一個一個小任務,分發給多臺裝置處理,再彙總結果。在分散式計算中,網路中的機器必須要保持可用(延遲誤差、意外宕機等等),需要一個持續監控架構


分散式多程序2

multiprocessing的子模組managers還支援把多程序分佈在多臺機器上,managers模組已經封裝好了網路通訊的細節

實現方法:我們可以使用managers模組將queue佇列通過網路暴露出去,讓其它機器訪問到這個佇列,然後就可以通過它實現資料交換

示例:
伺服器通過暴露queue到網路,放入資料到佇列,讓客戶端取出資料處理,再放回結果
伺服器程式碼

# task_master.py

import random, time, queue
from multiprocessing.managers import BaseManager

# 傳送任務的佇列:
task_queue = queue.Queue()
# 接收結果的佇列:
result_queue = queue.Queue()

# 從BaseManager繼承的QueueManager:
class QueueManager(BaseManager):
    pass

# 把兩個Queue都註冊到網路上, callable引數關聯了Queue物件:
QueueManager.
register('get_task_queue', callable=lambda: task_queue) QueueManager.register('get_result_queue', callable=lambda: result_queue) # 繫結埠5000, 設定驗證碼'abc': manager = QueueManager(address=('', 5000), authkey=b'abc') # 啟動Queue: manager.start() # 獲得通過網路訪問的Queue物件: task = manager.get_task_queue() result = manager.
get_result_queue() # 放幾個任務進去: for i in range(10): n = random.randint(0, 10000) print('Put task %d...' % n) task.put(n) # 從result佇列讀取結果: print('Try get results...') for i in range(10): r = result.get(timeout=10) print('Result: %s' % r) # 關閉: manager.shutdown() print('master exit.')

客戶端程式碼

# task_worker.py

import time, sys, queue
from multiprocessing.managers import BaseManager

# 建立類似的QueueManager:
class QueueManager(BaseManager):
    pass

# 由於這個QueueManager只從網路上獲取Queue,所以註冊時只提供名字:
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')

# 連線到伺服器,也就是執行task_master.py的機器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 埠和驗證碼注意保持與task_master.py設定的完全一致:
m = QueueManager(address=(server_addr, 5000), authkey=b'abc')
# 從網路連線:
m.connect()
# 獲取Queue的物件:
task = m.get_task_queue()
result = m.get_result_queue()
# 從task佇列取任務,並把結果寫入result佇列:
for i in range(10):
    try:
        n = task.get(timeout=1)
        print('run task %d * %d...' % (n, n))
        r = n*n
        time.sleep(1)
        result.put(r)
    except Queue.Empty:
        print('task queue is empty.')
# 處理結束:
print('worker exit.')

分散式架構庫

這篇僅是簡單的分散式的簡單操作,更多詳情,搜尋以下的內容作為關鍵字

使用面向物件模式和遠端呼叫模式實現分散式框架的庫,如Celery、SCOOP、Pyro4、RPyC,還有使用MapReduce實現的PyCSP、Disco

Celery:是一個用於管理分散式任務的Python框架
SCOOP:(Scalable Concurrent Operations in Python)用於進行科學計算
Pyro4:(Python Remote Object)遠端呼叫方法,類似於java中遠端方法呼叫(RMI)的庫,支援呼叫遠端物件(屬於不同程序,或不同機器上)的方法,就好像它是本地物件
PyCSP:是基於通訊的順序程序(communicating sequential processes,簡稱CSP)的一個Python模組,它是通過訊息傳遞方式構建併發程式的一種程式設計正規化,特點:程序間的訊息交換、通過執行緒使用共享記憶體、通過通道完成資訊交換
Disco:是一個基於谷歌推出的MapReduce框架的Python模組,支援在計算機叢集中管理大規模分散式資料



  1. 參考書籍:《Python並行程式設計手冊》 ↩︎

  2. 這段程式碼完全參考:廖雪峰 -分散式程序 https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431929340191970154d52b9d484b88a7b343708fcc60000 ↩︎