Hadoop中MapTask的並行度的決定機制

阿新 • • 發佈：2018-11-03

在MapReduce程式的執行中，並不是MapTask越多就越好。需要考慮資料量的多少及機器的配置。如果資料量很少，可能任務啟動的時間都遠遠超過資料的處理時間。同樣可不是越少越好。

MapTask的數量根據資料分片來決定，那麼該如何切分呢？

假如我們有一個300M的檔案，它會在HDFS中被切成3塊。0-128M,128-256M,256-300M。並被放置到不同的節點上去了。在MapReduce任務中，這3個Block會被分給3個MapTask。

MapTask在任務切片時實際上也是分配一個範圍，只是這個範圍是邏輯上的概念，與block的物理劃分沒有什麼關係。但在實踐過程中如果MapTask讀取的資料不在執行的本機，則必須通過網路進行資料傳輸，對效能的影響非常大。所以常常採取的策略是就按照塊的儲存切分MapTask，使得每個MapTask儘可能讀取本機的資料，這就是資料本地化策略。

如果一個Block非常小，也可以把多個小Block交給一個MapTask。

所以MapTask的切分要看情況處理。預設的實現是按照Block大小進行切分。MapTask的切分工作由客戶端（我們寫的main方法）負責。一個切片就對應一個MapTask例項。

MapTask並行度的決定機制

一個job的map階段並行度由客戶端在提交job時決定。同時決定切片數量，收集整個job的環境資訊，檢測環境的合法性，輸入輸出路徑的合法性。

而客戶端對map階段並行度的規劃的基本邏輯為：

將待處理資料執行邏輯切片（即按照一個特定切片大小，將待處理資料劃分成邏輯上的多個split），然後每一個split分配一個mapTask並行例項處理

MapTask並行度的經驗

如果硬體配置為2*12core + 64G，恰當的map並行度是大約每個節點20-100個map，最好每個map的執行時間至少一分鐘。

如果job的每個map或者 reduce task的執行時間都只有30-40秒鐘，那麼就減少該job的map或者reduce數，每一個task(map|reduce)的setup和加入到排程器中進行排程，這個中間的過程可能都要花費幾秒鐘，所以如果每個task都非常快就跑完了，就會在task的開始和結束的時候浪費太多的時間。

配置task的JVM重用可以改善該問題：

（mapred.job.reuse.jvm.num.tasks，預設是1，表示一個JVM上最多可以順序執行的task
數目（屬於同一個Job）是1。也就是說一個task啟一個JVM）

如果input的檔案非常的大，比如1TB，可以考慮將hdfs上的每個block size設大，比如設成256MB或者512MB

Hadoop中MapTask的並行度的決定機制

MapTask並行度的決定機制

MapTask並行度的經驗

Hadoop進階之MR中MapTask並行度決定機制及切片機制

MapTask並行度決定機制、FileInputFormat切片機制、map並行度的經驗之談、ReduceTask並行度的決定、MAPREDUCE程式執行演示（來自學筆記）

Hadoop中maptask數量的決定因素

Hadoop中MapTask的並行度的決定機制

12,maptask工作機制與maptask並行度與決定機制

MapReduce 並行度機制（一）MapTask 並行度機制

EXPDP/IMPDP 中的並行度PARALLEL引數

Hadoop中的HDFS的儲存機制

EXPDP/IMPDP 中的並行度PARALLEL引數 (並行)

MapTask和ReduceTask執行機制以及Map任務的並行度

HADOOP 中map和reduce的並行度設定的問題

MapReduce並行度機制

Hadoop中HDFS的儲存機制

Spark專案實戰-實際專案中常見的優化點-分配更多的資源和調節並行度

kafka中topic的partition數量和customerGroup的customer數量關係以及storm消費kafka時並行度設定問題總結：

Spark 中如何設定executor個數以及task並行度

Hadoop中Hbase的體系結構

javaweb中使用百度、谷歌地圖進行定位

在混合app開發過程中使用百度地圖api的出現坐標偏差的解決

error：hadoop 中沒有etc目錄

Hadoop中MapTask的並行度的決定機制

MapTask並行度的決定機制

MapTask並行度的經驗

相關推薦