一個mapreduce例項加註釋

阿新 • • 發佈：2019-02-14

1.WCMapper.java

package cn.itcast.hadoop.mr.wordcount;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

//4個泛型中，前兩個是指定mapper輸入資料的型別，KEYIN是輸入的key的型別，VALUEIN是輸入的value的型別
//map 和 reduce 的資料輸入輸出都是以 key-value對的形式封裝的
//預設情況下，框架傳遞給我們的mapper的輸入資料中，key是要處理的文字中一行的起始偏移量，這一行的內容作為value
public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
 
 //mapreduce框架每讀一行資料就呼叫一次該方法
 @Override
 protected void map(LongWritable key, Text value,Context context)
   throws IOException, InterruptedException {
  //具體業務邏輯就寫在這個方法體中，而且我們業務要處理的資料已經被框架傳遞進來，在方法的引數中 key-value
  //key 是這一行資料的起始偏移量     value 是這一行的文字內容
  
  //將這一行的內容轉換成string型別
  String line = value.toString();
  
  //對這一行的文字按特定分隔符切分
  String[] words = StringUtils.split(line, " ");
  
  //遍歷這個單詞陣列輸出為kv形式  k：單詞   v ： 1
  for(String word : words){
   
   context.write(new Text(word), new LongWritable(1));
   
  }

  

 }

 
 
}

2.WCReducer.java

package cn.itcast.hadoop.mr.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
 
 
 
 //框架在map處理完成之後，將所有kv對快取起來，進行分組，然後傳遞一個組<key,valus{}>，呼叫一次reduce方法
 //<hello,{1,1,1,1,1,1.....}>
 @Override
 protected void reduce(Text key, Iterable<LongWritable> values,Context context)
   throws IOException, InterruptedException {

  long count = 0;
  //遍歷value的list，進行累加求和
  for(LongWritable value:values){
   
   count += value.get();
  }
  
  //輸出這一個單詞的統計結果
  
  context.write(key, new LongWritable(count));
  
 }
 
 

}

3.WCRunner.java

package cn.itcast.hadoop.mr.wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 用來描述一個特定的作業
 * 比如，該作業使用哪個類作為邏輯處理中的map，哪個作為reduce
 * 還可以指定該作業要處理的資料所在的路徑
 * 還可以指定改作業輸出的結果放到哪個路徑
 * ....
 *  *
 */
public class WCRunner {

 public static void main(String[] args) throws Exception {
  
  Configuration conf = new Configuration();
  
  Job wcjob = Job.getInstance(conf);
  
  //設定整個job所用的那些類在哪個jar包
  wcjob.setJarByClass(WCRunner.class);
  
  
  //本job使用的mapper和reducer的類
  wcjob.setMapperClass(WCMapper.class);
  wcjob.setReducerClass(WCReducer.class);
  
  
  //指定reduce的輸出資料kv型別
  wcjob.setOutputKeyClass(Text.class);
  wcjob.setOutputValueClass(LongWritable.class);
  
  //指定mapper的輸出資料kv型別
  wcjob.setMapOutputKeyClass(Text.class);
  wcjob.setMapOutputValueClass(LongWritable.class);
  
  
  //指定要處理的輸入資料存放路徑
  FileInputFormat.setInputPaths(wcjob, new Path("hdfs://weekend110:9000/wc/srcdata/"));
  
  //指定處理結果的輸出資料存放路徑
  FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://weekend110:9000/wc/output3/"));
  
  //將job提交給叢集執行 
  wcjob.waitForCompletion(true);
  
  
 }
 
 
 
 
}

一個mapreduce例項加註釋

1.WCMapper.java package cn.itcast.hadoop.mr.wordcount; import java.io.IOException; import org.apache.commons.lang.StringUtils; import o

一個mapreduce同時加載讀取多個文件的代碼部分

resource blog efi [1] buffer sort family protect rri 方法一: 　　a.第一步:在job中加載兩個文件所在的位置 FileInputFormat.setInputPaths(job, new Pa

執行一個mapreduce例項

本文改編自開啟因為參考文中步驟有部分執行不正確，所以自己記錄下自己的步驟，並將原因整理了下。 Score.java檔案下載 import java.io.IOException; import java.util.Iterator; import

一個存儲過程實例，慢慢再加註釋吧！僅供自己學習

not in order datetime time 不顯示 top varchar union ide 1 USE [rfiddbHFKT] 2 GO 3 /****** Object: StoredProcedure [dbo].[ppque_tu] S

SVN提交強制添加註釋信息

svn在SVN管理上很多同事為了方便直接提交，不填寫註釋，在日後的管理上造成很大的麻煩，在此通過pre-commit腳本進行控制，提交時不能少於5個字符，否則不予提交。REPOS="$1" TXN="$2" SVNLOOK=/usr/bin/svnlook LOGMSG=`$SVNLOOK log -t "

一個可以添加商品、查詢商品的程序，登錄成功的話，再去操作，添加、查詢商品，添加商品也是寫在文件裏面

指定 true rod 成功文件 font split digi 邏輯 #寫一個可以添加商品、查詢商品的這麽程序#1、先登錄，登錄的用戶名和密碼都是寫在文件裏面的#1、讀文件、字符串分割#2、登錄成功的話，再去操作，添加、查詢商品，添加商品也是寫在文件裏面#1、讀寫文件，

oracle 給表和字段添加註釋

oracle 註釋備註comment on column TableName.ColumnName is ‘備註名’;comment on table TableName is ‘備註名‘;oracle 給表和字段添加註釋

Eclipse中自動添加註釋（作者，時間）

ava 進入 new java 模式 window templates nts 自動方法一：Eclipse中設置在創建新類時自動生成註釋 windows-->preference Java-->Code Style-->Code Templates co

Sql Server 給表及字段添加註釋

base dex es2017 pex 添加 @value logs table images 一、table 1、添加表註釋 EXECUTE sys.sp_addextendedproperty @name = N‘MS_Description‘, -- sy

一個div添加多個背景圖片

一個 image png logs http 背景分享添加多個效果圖如下：一個div添加多個背景圖片

Oracle 增加修改刪除字段與添加註釋

rain strong integer ora- str 例如 har err 語句添加字段的語法：alter table tablename add (column datatype [default value][null/not null],….); 修改字段的語

在Linux系統下關於svn提交時必須添加註釋的設置

linux svn 註釋 hooks pre-commit 如何在Linux系統下安裝svn，這裏暫不介紹，至於想看的請移步： https://help.aliyun.com/document_detail/52864.html？spm=5176.product25365.6.748.

HDFS設計思路，HDFS使用，查看集群狀態，HDFS，HDFS上傳文件，HDFS下載文件，yarn web管理界面信息查看，運行一個mapreduce程序，mapreduce的demo

b2c 數據系統 set 打包 value map mode format drive 26 集群使用初步 HDFS的設計思路 l 設計思想分而治之：將大文件、大批量文件，分布式存放在大量服務器上，以便於采取分而治之的方式對海量數據進行運算分析； l 在大數據系

python基礎===monkeytype可以自動添加註釋的模塊！

dir mon working app som 我們 test img htm monkeytype 一個可以自動添加註釋的模塊！先要下載： pip install monkeytype 以官網的sample code為例 #moudle.py def add

如何讓SVN提交時候強制添加註釋

log vpd echo blog error png 強制依次 message 一、右擊需要設置的庫，依次選擇“所有任務”，“Manage Hooks” 二、選中Pre-commit hook，點擊“Edit”，或者直接雙擊Pre-commit hook 三、打開Pre

手擼一個Vue滾動加載自定義指令

請求 tel document javascrip 決定 tlist win 滾動加載 pos 用Vue在移動端做滾動加載，使用mint-ui框架， InfiniteScroll指令loadmore組件，在uc瀏覽器和qq瀏覽器都無法觸發。無奈我只能自己寫了。決定用vu

php學習筆記-添加註釋

ech 添加 this echo body clas title 語言 post <?php echo ‘<title>this is my first php program!</title>‘; //this is a single com

IDEA使用 live template添加groovy腳本給方法,類,js方法添加註釋（轉載）

templates ret 註釋 @class val confirm nts ide con IDEA添加Live Template: File->Setting->Editor->Live Templates Abbreviatio

eclipse自動添加註釋

創建時間自動 pre pla author files -- pac window 自動添加註釋快捷鍵：alt shift jwindows-->preference Java-->Code Style-->Code Templates code--&

phpmyadmin如何在可視化界面給表和字段添加註釋

修改表名 4.4 tle ctu 修改表 struct 可視化 comm 路徑一、修改表名的註釋，如下：1、對於phpmyadmin 4.4.15.10版，修改方法：找到phpmyadmin根目錄下：\libraries\structure.lib.php 2、對於wam

一個mapreduce例項加註釋

相關推薦