Mapreduce例項——去重
01.Mapreduce例項——去重
實驗目的
1.準確理解MapReduce去重的設計原理
2.熟練掌握MapReduce去重的程式編寫
3.學會自己編寫MapReduce去重程式碼解決實際問題
實驗原理
“資料去重”主要是為了掌握和利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都會涉及資料去重。
資料去重的最終目標是讓原始資料中出現次數超過一次的資料在輸出檔案中只出現一次。在MapReduce流程中,map的輸出<key,value>經過shuffle過程聚整合<key,value-list>後交給reduce。我們自然而然會想到將同一個資料的所有記錄都交給一臺reduce機器,無論這個資料出現多少次,只要在最終結果中輸出一次就可以了。具體就是reduce的輸入應該以資料作為key,而對value-list則沒有要求(可以設定為空)。當reduce接收到一個<key,value-list>時就直接將輸入的key複製到輸出的key中,並將value設定成空值,然後輸出<key,value>。
MaprReduce去重流程如下圖所示:
實驗環境
Linux Ubuntu 14.04
jdk-7u75-linux-x64
hadoop-2.6.0-cdh5.4.5
hadoop-2.6.0-eclipse-cdh5.4.5.jar
eclipse-java-juno-SR2-linux-gtk-x86_64
實驗內容
現有一個某電商網站的資料檔案,名為buyer_favorite1,記錄了使用者收藏的商品以及收藏的日期,檔案buyer_favorite1中包含(使用者id,商品id,收藏日期)三個欄位,資料內容以“\t”分割,由於資料很大,所以為了方便統計我們只擷取它的一部分資料,內容如下:
- 使用者id商品id收藏日期
- 1018110004812010-04-0416:54:31
- 2000110015972010-04-0715:07:52
- 2000110015602010-04-0715:08:27
- 2004210013682010-04-0808:20:30
- 2006710020612010-04-0816:45:33
- 2005610032892010-04-1210:50:55
- 2005610032902010-04-1211:57:35
- 2005610032922010-04-1212:05:29
- 2005410024202010-04-1415:24:12
- 2005510016792010-04-1419:46:04
- 2005410106752010-04-1415:23:53
- 2005410024292010-04-1417:52:45
- 2007610024272010-04-1419:35:39
- 2005410033262010-04-2012:54:44
- 2005610024202010-04-1511:24:49
- 2006410024222010-04-1511:35:54
- 2005610030662010-04-1511:43:01
- 2005610030552010-04-1511:43:06
- 2005610101832010-04-1511:45:24
- 2005610024222010-04-1511:45:49
- 2005610031002010-04-1511:45:54
- 2005610030942010-04-1511:45:57
- 2005610030642010-04-1511:46:04
- 2005610101782010-04-1516:15:20
- 2007610031012010-04-1516:37:27
- 2007610031032010-04-1516:37:05
- 2007610031002010-04-1516:37:18
- 2007610030662010-04-1516:37:31
- 2005410031032010-04-1516:40:14
- 2005410031002010-04-1516:40:16
要求用Java編寫MapReduce程式,根據商品id進行去重,統計使用者收藏商品中都有哪些商品被收藏。結果資料如下:
- 商品id
- 1000481
- 1001368
- 1001560
- 1001597
- 1001679
- 1002061
- 1002420
- 1002422
- 1002427
- 1002429
- 1003055
- 1003064
- 1003066
- 1003094
- 1003100
- 1003101
- 1003103
- 1003289
- 1003290
- 1003292
- 1003326
- 1010178
- 1010183
- 1010675
實驗步驟
1.切換到/apps/hadoop/sbin目錄下,開啟Hadoop。
- cd/apps/hadoop/sbin
- ./start-all.sh
2.在Linux本地新建/data/mapreduce2目錄。
- mkdir-p/data/mapreduce2
3. (自行生成文字檔案,放到個人指定資料夾下)在Linux中切換到/data/mapreduce2目錄下,用wget命令從http://192.168.1.100:60000/allfiles/mapreduce2/buyer_favorite1網址上下載文字檔案buyer_favorite1。
- cd/data/mapreduce2
- wgethttp://192.168.1.100:60000/allfiles/mapreduce2/buyer_favorite1
然後在當前目錄下用wget命令從http://192.168.1.100:60000/allfiles/mapreduce2/hadoop2lib.tar.gz網址上下載專案用到的依賴包。
- wgethttp://192.168.1.100:60000/allfiles/mapreduce2/hadoop2lib.tar.gz
將hadoop2lib.tar.gz解壓到當前目錄下。
- tarzxvfhadoop2lib.tar.gz
4.首先在HDFS上新建/mymapreduce2/in目錄,然後將Linux本地/data/mapreduce2目錄下的buyer_favorite1檔案匯入到HDFS的/mymapreduce2/in目錄中。
- hadoopfs-mkdir-p/mymapreduce2/in
- hadoopfs-put/data/mapreduce2/buyer_favorite1/mymapreduce2/in
5.新建Java Project專案,專案名為mapreduce2。
在mapreduce2專案下新建包,包名為mapreduce。
在mapreduce包下新建類,類名為Filter。
6.新增專案所需依賴的jar包
右鍵專案,新建一個資料夾,命名為:hadoop2lib,用於存放專案所需的jar包。
將/data/mapreduce2目錄下,hadoop2lib目錄中的jar包,拷貝到eclipse中mapreduce2專案的hadoop2lib目錄下。
選中所有專案hadoop2lib目錄下所有jar包,並新增到Build Path中。
7.編寫程式程式碼,並描述其思路
資料去重的目的是讓原始資料中出現次數超過一次的資料在輸出檔案中只出現一次。我們自然想到將相同key值的所有value記錄交到一臺reduce機器,讓其無論這個資料出現多少次,最終結果只輸出一次。具體就是reduce的輸出應該以資料作為key,而對value-list沒有要求,當reduce接收到一個時,就直接將key複製到輸出的key中,將value設定為空。
Map程式碼
- publicstaticclassMapextendsMapper<Object,Text,Text,NullWritable>
- //map將輸入中的value複製到輸出資料的key上,並直接輸出
- {
- privatestaticTextnewKey=newText();//從輸入中得到的每行的資料的型別
- publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException
- //實現map函式
- {//獲取並輸出每一次的處理過程
- Stringline=value.toString();
- System.out.println(line);
- Stringarr[]=line.split("\t");
- newKey.set(arr[1]);
- context.write(newKey,NullWritable.get());
- System.out.println(newKey);
- }
- }
map階段採用Hadoop的預設的作業輸入方式,把輸入的value用split()方法擷取,截取出的商品id欄位設定為key,設定value為空,然後直接輸出<key,value>。
reduce端程式碼
- publicstaticclassReduceextendsReducer<Text,NullWritable,Text,NullWritable>{
- publicvoidreduce(Textkey,Iterable<NullWritable>values,Contextcontext)throwsIOException,InterruptedException
- //實現reduce函式
- {
- context.write(key,NullWritable.get());//獲取並輸出每一次的處理過程
- }
- }
map輸出的<key,value>鍵值對經過shuffle過程,聚成<key,value-list>後,會交給reduce函式。reduce函式,不管每個key 有多少個value,它直接將輸入的賦值給輸出的key,將輸出的value設定為空,然後輸出<key,value>就可以了。
完整程式碼
- packagemapreduce;
- importjava.io.IOException;
- importorg.apache.hadoop.conf.Configuration;
- importorg.apache.hadoop.fs.Path;
- importorg.apache.hadoop.io.IntWritable;
- importorg.apache.hadoop.io.NullWritable;
- importorg.apache.hadoop.io.Text;
- importorg.apache.hadoop.mapreduce.Job;
- importorg.apache.hadoop.mapreduce.Mapper;
- importorg.apache.hadoop.mapreduce.Reducer;
- importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;
- importorg.apache.hadoop.mapreduce.lib.input.TextInputFormat;
- importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
- importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
- publicclassFilter{
- publicstaticclassMapextendsMapper<Object,Text,Text,NullWritable>{
- privatestaticTextnewKey=newText();
- publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{
- Stringline=value.toString();
- System.out.println(line);
- Stringarr[]=line.split("\t");
- newKey.set(arr[1]);
- context.write(newKey,NullWritable.get());
- System.out.println(newKey);
- }
- }
- publicstaticclassReduceextendsReducer<Text,NullWritable,Text,NullWritable>{
- publicvoidreduce(Textkey,Iterable<NullWritable>values,Contextcontext)throwsIOException,InterruptedException{
- context.write(key,NullWritable.get());
- }
- }
- publicstaticvoidmain(String[]args)throwsIOException,ClassNotFoundException,InterruptedException{
- Configurationconf=newConfiguration();
- System.out.println("start");
- Jobjob=newJob(conf,"filter");
- job.setJarByClass(Filter.class);
- job.setMapperClass(Map.class);
- job.setReducerClass(Reduce.class);
- job.setOutputKeyClass(Text.class);
- job.setOutputValueClass(NullWritable.class);
- job.setInputFormatClass(TextInputFormat.class);
- job.setOutputFormatClass(TextOutputFormat.class);
- Pathin=newPath("hdfs://localhost:9000/mymapreduce2/in/buyer_favorite1");
- Pathout=newPath("hdfs://localhost:9000/mymapreduce2/out");
- FileInputFormat.addInputPath(job,in);
- FileOutputFormat.setOutputPath(job,out);
- System.exit(job.waitForCompletion(true)?0:1);
- }
- }
8.在Filter類檔案中,右鍵並點選=>Run As=>Run on Hadoop選項,將MapReduce任務提交到Hadoop中。
9.待執行完畢後,進入命令模式下,在HDFS中/mymapreduce2/out檢視實驗結果。
- hadoopfs-ls/mymapreduce2/out
- hadoopfs-cat/mymapreduce2/out/part-r-00000