1. 程式人生 > >MapReduce基本處理步驟如下:

MapReduce基本處理步驟如下:

MapReduce可以理解為把一堆雜亂無章的資料按照某種特徵歸併起來,然後處理並得到最後的結果。基本處理步驟如下:

  1. 把輸入檔案按照一定的標準分片,每個分片對應一個map任務。一般情況下,MapReduce和HDFS執行在同一組計算機上,也就是說,每臺計算機同時承擔儲存和計算任務,因此分片通常不涉及計算機之間的資料複製。
  2. 按照一定的規則把分片中的內容解析成鍵值對。通常選擇一種預定義的規則即可。
  3. 執行map任務,處理每個鍵值對,輸出零個或多個鍵值對。
  4. MapReduce獲取應用程式定義的分組方式,並按分組對map任務輸出的鍵值對排序。預設每個鍵名一組。
  5. 待所有節點都執行完上述步驟後,MapReduce啟動Reduce任務。每個分組對應一個Reduce任務。
  6. 執行reduce任務的程序通過網路獲取指定組的所有鍵值對。
  7. 把鍵名相同的值合併為列表。
  8. 執行reduce任務,處理每個鍵對應的列表,輸出結果。