七、MapReduce的Shuffle和Spark的Shuffle異同?談一談各自的特點和過程。
阿新 • • 發佈:2019-09-23
1、MapReduce的Shuffle機制:
在MapReduce框架中,shuffle是連線Map和Reduce之間的橋樑,Map大的輸出要用到Reduce中必須經過shuffle這個環節,
shuffle的效能高低直接影響了整個程式的效能和吞吐量。 Shuffle是MapReduce框架中的一個特定的phase,介於Map phase和Reduce phase之間,當Map的輸出結果要被Reduce使用時,輸出結果需要按key雜湊,並且分發到每一個Reducer上去,這個過程就是shuffle。 由於shuffle涉及到了磁碟的讀寫和網路的傳輸,因此shuffle效能的高低直接影響到了整個程式的執行效率。