1. 程式人生 > >MapReduce實現單詞統計

MapReduce實現單詞統計

 mapreduce實現思路:

Map階段:

a) HDFS的源資料檔案中逐行讀取資料

b) 將每一行資料切分出單詞

c) 為每一個單詞構造一個鍵值對(單詞,1)

d) 將鍵值對傳送給reduce

 

Reduce階段

a) 接收map階段輸出的單詞鍵值對

b) 將相同單詞的鍵值對匯聚成一組

c) 對每一組,遍歷組中的所有“值”,累加求和,即得到每一個單詞的總次數

d) (單詞,總次數)輸出到HDFS的檔案中

程式碼實現:

匯入包:

Map端:

Reduce端:

主函式: