1. 程式人生 > >簡要MR與Spark在Shuffle區別

簡要MR與Spark在Shuffle區別

**一、區別** ①本質上相同,都是把Map端資料分類處理後交由Reduce的過程。 ②資料流有所區別,MR按map, spill, merge, shuffle, sort, r educe等各階段逐一實現。Spark基於DAG資料流,可實現更復雜資料流操作(根據寬/窄依賴實現) ③實現功能上有所區別,MR在map中做了排序操作,而Spark假定大多數應用場景Shuffle資料的排序操作不是必須的,而是採用Aggregator機制(Hashmap每