1. 程式人生 > >MapReduce的工作機制

MapReduce的工作機制

  1. map任務輸出到環形緩衝空間中。(當到達80%後會溢寫輸出檔案) —— MapOutput
  2. 在緩衝空間中,對資料進行分割槽,並對每個分割槽的資料進行排序。 —— partion and sort
  3. 如果存在combiner,則在排序後進行combiner。 —— combiner
  4. 將快取中的資料新建為溢寫檔案。 —— spill to disk
  5. 由於map一直在輸出,會產生多個溢寫檔案,將多個溢寫檔案(已經在磁碟上)進行合併為一個檔案並將多個溢寫檔案按照分割槽後的資料再次排序。 —— merge on disk and sort
  6. reduce端拉取磁碟上的資料。 —— fetch
  7. 對多個輸入到reduce上的檔案進行合併並維持其順序排序。 —— merge
  8. reduce輸出到檔案系統。 —— fileOutput