大數據學習日誌——java編寫hadoop的mapreduce實現wordcount功能

阿新 • • 發佈：2019-03-24

int bsp exceptio 輸入參數長度 con 服務配置參數 getc

  1 package mapreduce;
  2 
  3 import org.apache.hadoop.conf.Configuration;
  4 import org.apache.hadoop.fs.Path;
  5 import org.apache.hadoop.io.IntWritable;
  6 import org.apache.hadoop.io.LongWritable;
  7 import org.apache.hadoop.io.Text;
  8 import org.apache.hadoop.mapreduce.Job;
  9 
 import org.apache.hadoop.mapreduce.Mapper;
 10 import org.apache.hadoop.mapreduce.Reducer;
 11 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 12 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 13 
 14 import java.io.IOException;
 15 import java.util.Iterator;
 
 16 import java.util.StringTokenizer;
 17 
 18 public class MyMapReduce {
 19     //1自己的map類
 20     //繼承mapper類，<輸入key,輸入value，輸出value，輸出key>
 21     public static class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
 22         //每個key設置輸出value為1
 23         IntWritable i = new 
 IntWritable(1);
 24         Text keyStr = new Text();
 25 
 26         @Override
 27         protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 28             //TextInputFormat是Hadoop默認的數據輸入格式,但是它只能一行一行的讀記錄
 29 
 30             StringTokenizer itr = new StringTokenizer(value.toString());
 31             while (itr.hasMoreTokens()) {
 32                 keyStr.set(itr.nextToken());
 33                 context.write(keyStr, i);
 34             }
 35 
 36         }
 37     }
 38 
 39     //2自己的reducer類
 40     //繼承reducer類，<輸入key,輸入value，輸出value，輸出key>
 41     //reducer類的輸入，就是mapper的輸出
 42     //mapper類map方法的數據輸入到Reduce類group方法中，對key的value進行分組得到values,再放入reduce方法中
 43     public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
 44         IntWritable countWritable = new IntWritable();
 45 
 46         @Override
 47         protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
 48             String keyStr = key.toString();
 49             //在map中每個key對應的value為1,
 50             //那麽reduce每個key對應的集合便是重復key的個數的長度，並且每個值為1
 51             //即集合元素值相加即為key的數量
 52             int count = 0;
 53             Iterator<IntWritable> it = values.iterator();
 54             while (it.hasNext()) {
 55                 count += it.next().get();
 56             }
 57             countWritable.set(count);
 58             System.out.println(keyStr + "---" + count);
 59             context.write(key, countWritable);
 60         }
 61     }
 62 
 63     //3運行類
 64     public int run(String[] args) throws Exception {
 65         //hadoop配置上下文
 66         Configuration conf = new Configuration();
 67         //這裏要是沒有把配置文件放入resources中，需要手動添加配置文件，或者添加配置參數
 68 //        conf.addResource("core-site.xml");
 69 //        conf.addResource("hdfs-site.xml");
 70         //通過上下文構建job實例，並傳入任務名稱
 71         Job job = Job.getInstance(conf, this.getClass().getSimpleName());
 72         //設置reduce數量
 73         job.setNumReduceTasks(3);
 74         //必須添加，否則本地運行沒問他，服務器報錯
 75         job.setJarByClass(MyMapReduce.class);
 76         //設置任務讀取數據
 77         //調用時傳入參數，第一個參數為路徑輸入參數
 78         Path inputPath = new Path(args[0]);
 79         FileInputFormat.addInputPath(job, inputPath);
 80 
 81         //調用時傳入參數，第二個參數為路徑輸出參數
 82         Path outputPath = new Path(args[1]);
 83         FileOutputFormat.setOutputPath(job, outputPath);
 84 
 85         //設置mapper類參數
 86         job.setMapperClass(MyMapper.class);
 87         job.setMapOutputKeyClass(Text.class);
 88         job.setMapOutputValueClass(IntWritable.class);
 89 
 90         //設置reducer類參數
 91         job.setReducerClass(MyReducer.class);
 92         job.setOutputKeyClass(Text.class);
 93         job.setOutputValueClass(IntWritable.class);
 94         //設置任務保存結果數據
 95 
 96         //設置combiner類，同reduce一樣，同樣繼承reduce類
 97         //combiner將多個map的數據單獨處理，reduce處理所有map的所有數據
 98         //job.setCombinerClass();
 99         boolean isSuccess = job.waitForCompletion(true);
100         return isSuccess ? 0 : 1;
101     }
102 
103     public static void main(String[] args) throws Exception {
104 
105         //將傳入的第一個參數作為文件輸入參數，第二個參數作為文件輸出參數
106         System.out.println(args[0]);
107         System.out.println(args[1]);
108         MyMapReduce mr = new MyMapReduce();
109         int success = -1;
110         success = mr.run(args);
111         System.out.println(success);
112 
113     }
114 }

int bsp exceptio 輸入參數長度 con 服務配置參數 getc 1 package mapreduce; 2 3 import org.apache.hadoop.conf.Configuration; 4 import or

大數據學習——日誌分析

time mapreduce apr style join nbsp 其中登陸統計有兩個海量日誌文件存儲在hdfs上，其中登陸日誌格式：user，ip，time，oper（枚舉值：1為上線，2為下線）；訪問之日格式為：ip，time，url，假設登陸日誌中上下

大數據學習日誌——粗看sparkstreaming滑動窗口源碼

三個參數 fun 使用基本 expec ice 事情 you 定義寫這篇隨筆的原因在於本人在網上看了很多相關博客很多文章內容給出的用法都一致是如下形式： 1 reduceByKeyAndWindow(_ + _,_ - _,Minutes(2),Seconds(10

大數據學習——java代碼實現對HDFS文件的read、append、write操作

導入 () 學習 ioe java 1.8 todo ever col 在之前的環節進行了HDFS 的搭建過程，接下來學習的內容是通過java代碼實現對HDFS中文件進行操作。這部分學習是為了之後在使用到的MapRedce對HDFS 文件進行操作。在eclipse上編寫

大數據學習——MapReduce配置及java代碼實現wordcount算法

鍵值 example nds clas spl key lru 這樣的 java_home ---恢復內容開始--- 配置MapReduce需要在之前配置的基礎上配置兩個xml文件一個是yarn-site.xml一個是mapred-site.xml，在之前配置的hadoop

大數據學習系列之三 ----- HBase Java Api 圖文詳解

工具 itl 進行圖片置配動態數據 sync ase tac 引言在上一篇中大數據學習系列之二 ----- HBase環境搭建(單機) 中，成功搭建了Hadoop+HBase的環境，本文則主要講述使用Java 對HBase的一些操作。一、事前準備 1.確認hado

阿裏年薪50萬的JAVA工程師轉大數據學習路線

namenode 分區開源訪問 kafka 流行 crontab 任務調度 base 大數據有兩個方向，一個是偏計算機的，另一個是偏經濟的。你學過Java，所以你可以偏將計算機的。 Java程序員想轉大數據可行嗎？Java是全世界使用人數最多的編程語言。不少程序員選擇J

大數據學習——點擊流日誌每天都10T，在業務應用服務器上，需要準實時上傳至（Hadoop HDFS）上

路徑 log odin 分享圖片文件的增強健全 nta tab 點擊流日誌每天都10T，在業務應用服務器上，需要準實時上傳至（Hadoop HDFS）上 1需求說明點擊流日誌每天都10T，在業務應用服務器上，需要準實時上傳至（Hadoop HDFS）上 2需求分析

大數據學習之MapReduce編程案例二流量日誌統計 10

本地編寫代碼效果 system 持久 window highlight 手機 img 每一個用戶的統計總流量一：編寫代碼之前。先了解一下hadoop中的序列化 JAVA 類型 HADOOP 類型 int　　　　 IntWritable

貴陽如何學習大數據？大數據學習路線安排

貴陽大數據大數據學習路線很多朋友不知道怎麽入手學習大數據，今天科多大數據帶你進入大數據的世界。一、Hadoop入門，了解什麽是hadoop1、Hadoop產生背景2、Hadoop在大數據、雲計算中的位置和關系3、國內外Hadoop應用案例介紹4、國內Hadoop的就業情況分析及課程大綱介紹5、分布

大數據學習之Scala中main函數的分析以及基本規則（2）

語言 python rgs 數字 popu 結束圖片區別返回一、main函數的分析首先來看我們在上一節最後看到的這個程序，我們先來簡單的分析一下。有助於後面的學習 object HelloScala { def main(args:

大數據學習之Linux環境搭建（導航）

vmw href 。。人的 com linu 過程 htm next 環境搭建過程網上有挺多，我只是站在巨人的肩膀上。更多是對自己的搭建環境過程中的一個記錄。首先是VMware軟件的安裝，沒什麽說的，一直“下一步”就好了，虛擬機下安裝Linux系統也比較簡單，不贅述。

大數據學習總結記錄—分布式緩存-Memacache(1)

可用 ges rst 沒有 key-value 應用服務器 nginx 圖像缺點傳統LAMP 傳統架構LAMP linux + Apache(nginx) + Mysql + PHP 高可用，高並發，高性能傳統架構過程分析一個請求到來首先經過nginx反向代理

大數據學習系列之五 ----- Hive整合HBase圖文詳解

scala direct ont 增加 pac hadoop2 exe dfs- min 引言在上一篇大數據學習系列之四 ----- Hadoop+Hive環境搭建圖文詳解(單機) 和之前的大數據學習系列之二 ----- HBase環境搭建(單機) 中成功搭建了Hive

大數據學習遇到的問題，大數據薪資多高崗位空缺大

div blog post a20 .cn bcm htm x509 nbd 寡am掛乃亮壯eo戳階矢訪墾氖臥投映懇灘68業隙梁http://blog.sina.com.cn/s/blog_17c5d39770102y0pp.html私5p臼備拓詿t9諢每鉤腔握雜誒翰偽濾拿

大數據學習（8）Hive基礎

fall nat value onf change expected role blog tab 什麽是Hive Hive是一個基於HDFS的查詢引擎。我們日常中的需求如果都自己去寫MapReduce來實現的話會很費勁的，Hive把日常用到的MapReduce功能，比如排序

大數據學習系列（4）-- shell編程

blank tro itl gpo .cn lan 學習 nbsp 系列 http://wiki.ubuntu.org.cn/Shell%E7%BC%96%E7%A8%8B%E5%9F%BA%E7%A1%80#Shell.E9.87.8C.E7.9A.84.E6.B5.

大數據學習系列（5）-- 局域網yum倉庫搭建

http 數據 str htm bsp ron lan class tle https://www.cnblogs.com/nulige/p/6081192.html 大數據學習系列（5）-- 局域網yum倉庫搭建

大數據學習之一——了解簡單概念

聚類日常 ces 數據分析適合讀寫流轉聯機事務處理推薦系統 1.大數據是什麽？特點大數據：是一種規模非常大的，在分析、管理、存儲和獲取等方面都超出了傳統的數據庫軟件所具有的功能處理範圍的巨大數據的調集。特征：1.海量的數據規模（Volume） 2

大數據學習之五——HDFS常用命令

dfs 放置 shell. 下載文件參數 linux系統文件的 com HDFS文件操作常用命令：（1）列出HDFS下的文件 hadoop dfs -ls <目錄> （2）上傳文件將Linux系統本地文件上傳到HDFS中 hadoop d

大數據學習日誌——java編寫hadoop的mapreduce實現wordcount功能

相關推薦