理解Storm並行度

阿新 • • 發佈：2019-01-21

一個Topology可以執行多個Worker上，這樣可以提高資料處理能力，因為一個worker就是一個程序，更確切的說是一個JVM，很自然的，我們可以想到如果一個worker中可以再起多個執行緒的話效率就會很高。事實上storm就是這麼幹的，worker並不是storm叢集中最小執行單位。Executer才是storm叢集中最小的執行單位。Executer其實是一個執行緒，你可以這樣理解，worker是拓撲的最小執行單位，而Executer是Spout或者Bolt（其實spout也是bolt）最小執行單位。什麼意思？執行一個拓撲就是啟動一個jvm程序，啟動一個spout或者bolt就是啟動一個Executer執行緒（執行器執行緒）。
然後我們再看幾個跟設定並行度有關的引數：
1.setSpout(String id, IRichSpout spout, Number parallelism_hint)
2.setNumTasks(Number val)
3.setNumWorkers(int workers)
4.setNumAckers(int numExecutors)

對於：parallelism_hint (並行度暗示)
其實就是Executor執行緒的個數，如果配置了worker就會平均分配到可用的worker上
對於：setNumTasks(Number val)
每個Executor執行器執行幾個執行緒去做這件事，可以理解為多執行緒中同時執行幾個run方法裡
對於setNumWorkers
顧名思義及時jvm的數量
對於setNumAckers
訊息處理的acker數量，輔助用，根據需求修改
其實在官網上有一個非常好的圖片可以說清楚他們的關係：

這裡寫圖片描述
關於動態修改需要知道的是：其實就是在調整executor的數量
在命令列動態修改並行度
除了使用程式碼進行調整，還可以在shell命令列下對並行度進行調整。
storm rebalance mytopology -w 10 -n 2 -e spout=2 -e bolt=2
表示 10秒之後對mytopology進行並行度調整。把spout調整為2個executor，把bolt調整為2個executor
注意：並行度主要就是調整executor的數量，但是調整之後的executor的數量必須小於等於task的數量，如果分配的executor的執行緒數比task數量多的話也只能分配和task數量相等的executor。

理解Storm並行度

理解Storm並行度

Storm並行度和流分組詳解

Storm並行度詳解

【原】【譯文】理解storm拓撲並行度

Apache Storm 官方文件 —— 理解 Storm 拓撲的並行度(parallelism)概念

kafka中topic的partition數量和customerGroup的customer數量關係以及storm消費kafka時並行度設定問題總結：

storm的並行度

Storm的並行度詳解

Storm學習筆記（5）- 並行度

Storm(四)並行度和流分組

Storm（五）拓撲並行度

storm（四）並行度

線程池與並行度

MapReduce並行度機制

Hadoop中MapTask的並行度的決定機制

關於對比損失（contrasive loss）的理解（相似度越大越相似的情況）：

理解Storm Topology的併發機制

SEO關鍵詞優化：如何理解被百度快速索引？

大資料教程（8.5）mapreduce原理之並行度

Spark專案實戰-實際專案中常見的優化點-分配更多的資源和調節並行度

理解Storm並行度

相關推薦