1. 程式人生 > >複習總結01:Hadoop

複習總結01:Hadoop

六、MR框架程式設計要點: 詳見eclipse的Test模板包 手機號的流量資料分析: ①從hdfs上獲取檔案的手機號及其流量統計的資料 ②輸出結果按照流量大小排序 ③輸出結果按照省份分割資料到不同的檔案 一、專案分析:
①對hdfs上的資料格式分析,確定(k,v)手機號來做key;上下行資料量構成物件做value。 ②構造物件Bean,成員變數及其方法。 ③編寫Mapper和Reducer類及方法 1、完成Bean的物件構造 ①根據物件特點,完善其成員變數以及其get(),set()方法; ②因為要使用context.write(k,v)所以物件要實現Writable的介面;實現後即可以被寫 ③實現String toString();方法。 備註:如果作為物件的模板學會 修改成員變數; 2、編寫Mapper類(在TestMR類中寫靜態mapper類) ①:繼承Mapper確定輸入輸出的資料格式; ②:讀取一行內容,用空格"\t"或者某些標識切割一行資料,獲取內容儲存在字串陣列中; ③:資料解析後構造物件,寫入context。 3、編寫Reducer類(在TestMR類中寫靜態reducer類) ①確定輸入輸出kv對與Mapper輸出的kv對格式相同; ②按照key完成Values的遍歷,迭代等操作; ③輸出結果檔案,注意輸出的物件的定義,最後封裝物件輸出。 4、編寫Driver類(一般在TestMR類中寫main方法實現) ①設定Job; ②完成一系列的設定,類,輸入輸出格式,檔案路徑; ③提交Job,檢測。 5、提交Job,進行雲計算 ①打包jar,sftp提交到host上; ②執行 hadoop jar Test.jar test.TestMR ③執行 hadoop fs -cat /output/part-r-00000 讀取結果檔案