Spark效能優化篇四:shuffle調優
阿新 • • 發佈:2019-01-01
Spark效能優化篇四:shuffle調優
shuffle調優
因此在Spark 1.2以後的版本中,預設的ShuffleManager改成了SortShuffleManager。SortShuffleManager相較於HashShuffleManager來說,有了一定的改進。主要就在於,每個Task在進行shuffle操作時,雖然也會產生較多的臨時磁碟檔案,但是最後會將所有的臨時檔案合併(merge)成一個磁碟檔案,因此每個Task就只有一個磁碟檔案。在下一個stage的shuffle read task拉取自己的資料時,只要根據索引讀取每個磁碟檔案中的部分資料即可。
下面我們詳細分析一下HashShuffleManager和SortShuffleManager的原理。
shuffle調優