Hadoop：WordCount分析

阿新 • • 發佈：2017-12-21

詳細 tex string 實現 col 一個 mapper 信息 job

相關代碼：

  1 package com.hadoop;
  2 
  3 import org.apache.hadoop.conf.Configuration;
  4 import org.apache.hadoop.fs.Path;
  5 import org.apache.hadoop.io.IntWritable;
  6 import org.apache.hadoop.io.Text;
  7 import org.apache.hadoop.mapreduce.Job;
  8 import org.apache.hadoop.mapreduce.Mapper;
  9 
 import org.apache.hadoop.mapreduce.Reducer;
 10 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 11 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 12 
 13 import java.io.IOException;
 14 import java.util.StringTokenizer;
 15 
 16 public class WordCount {
 17 
 18 
 19 
     /**
 20      * Mapper接口是個泛型類型，它有4個形式參數類型，分別指定map函數的輸入鍵、輸入值、輸出鍵和輸出值的類型。
 21      * WordCount為例：輸入鍵是一個長整數偏移量，輸入的值是一行文本，輸出的鍵是單詞，輸出的值是單詞個數（整型）
 22      * Hadoop規定了自己的一套用於網絡序列化的基本類型，而不直接使用Java內嵌的類型。這些類型在org.apache.hadoop.io包中。
 23      *      LongWritable類型相當於Java的Long類型
 24      *      Text類型相當於Java的String類型
 
 25      *      IntWritable類型相當於Java的Integer類型
 26 
 27      */
 28     public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
 29 
 30         private final static IntWritable one = new IntWritable(1);
 31         private Text word = new Text();
 32 
 33         /**
 34          *
 35          * @param key
 36          * @param value
 37          * @param context
 38          * @throws IOException
 39          * @throws InterruptedException
 40          * map( )方法的輸入是一個鍵和一個值。首先使用StringTokenizer類將輸入的Text值轉換成String類型，然後使用nextToken( )方法將單詞提取出來。
 41          * map( )方法還提供Context實例用於輸出內容的寫入。將單詞數據按照Text類型進行讀寫，因為單詞作為鍵。將單詞數據數封裝為IntWritable類型。
 42          */
 43         public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
 44             StringTokenizer itr = new StringTokenizer(value.toString());  // 有三個重載方法，這裏以空白字符（“ ”，“\t”，“\n”）為分隔符分割字符串
 45             while (itr.hasMoreTokens()) {  // 判斷是否還有分隔符
 46                 // set方法將String轉換成Text
 47                 // nextToken返回當前位置到下一個分隔符位置的字符串
 48                 word.set(itr.nextToken());
 49                 context.write(word, one);   // 使用Context實例用於輸出內容的寫入
 50             }
 51         }
 52     }
 53 
 54     /**
 55      * reduce函數也有四個形式參數類型用於指定輸入和輸出類型。reduce函數的輸入類型必須匹配map函數的輸出類型：即Text類型和IntWritable類型。
 56      */
 57     public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
 58         private IntWritable result = new IntWritable();
 59 
 60         public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
 61             int sum = 0;
 62             for (IntWritable val : values) { // 遍歷相同的key（單詞）對應的values，並進行相加
 63                 sum += val.get();
 64             }
 65             result.set(sum);
 66             context.write(key, result); // 將統計的數目賦給每一個不同的單詞
 67         }
 68     }
 69 
 70     public static void main(String[] args) throws Exception {
 71         /**
 72          * Configuration類是作業的配置信息類，任何作用的配置信息必須通過Configuration傳遞，
 73          * 因為通過Configuration可以實現在多個mapper和多個reducer任務之間共享信息。
 74          */
 75         Configuration conf = new Configuration();
 76         Job job = Job.getInstance(conf, "word count"); //Job對象制定作業執行規範，用它來控制整個作業的運行。
 77 
 78         /**
 79          * 在Hadoop集群上運行這個作業時，要把代碼打包成一個JAR包，發布在集群上。
 80          * 不必明確指定JAR文件的名稱，在Job對象的setJarByClass( )方法中傳遞一個類即可，Hadoop利用這個類查找包含它的JAR文件。
 81          */
 82         job.setJarByClass(WordCount.class);
 83 
 84         /**
 85          * setMapperClass( ) 和setReducerClass( )方法指定要用的map類型和reduce類型
 86          */
 87         job.setMapperClass(TokenizerMapper.class);
 88         job.setReducerClass(IntSumReducer.class);
 89         job.setCombinerClass(IntSumReducer.class);
 90 
 91 
 92         /**
 93          * setOutputKeyClass( ) 和setOutputValueClass( )方法控制reduce函數的輸出類型，必須要和Reduce類產生的相匹配。
 94          * 輸入的類型沒有設置，因為使用了默認的TextInputFormat（文本輸入格式）
 95          */
 96         job.setOutputKeyClass(Text.class);
 97         job.setOutputValueClass(IntWritable.class);
 98 
 99         /**
100          * FileInputFormat類的靜態方法addInputPath( )來指定輸入數據的路徑
101          * 該路徑可以是單個的文件、一個目錄或符合特定文件模式的一系列文件。
102          * ‘可以多次調用addInputPath( )來實現多路徑的輸入。
103          */
104         FileInputFormat.addInputPath(job, new Path(args[0]));
105 
106         /**
107          * FileOutputFormat類中的靜態方法setOutputPath( )來指定輸出路徑（只能有一個輸出路徑），即reduce函數輸出文件的寫入目錄。
108          * 在運行作業前該目錄不能存在，否則Hadoop會報錯並拒絕運行作業。
109          * 目的：防止數據丟失，假如一個作業運行了很久才得出結果，現在被另一個作業不小心覆蓋會令人崩潰。
110          */
111         FileOutputFormat.setOutputPath(job, new Path(args[1]));
112 
113 
114         /**
115          * waitForCompletion( )方法提交作業並等待執行完成。該方法的唯一參數是一個標識，指示是否已生成詳細輸出。
116          */
117         System.exit(job.waitForCompletion(true) ? 0 : 1);
118     }
119 }

運行結果：

技術分享圖片

Hadoop：WordCount分析

詳細 tex string 實現 col 一個 mapper 信息 job 相關代碼： 1 package com.hadoop; 2 3 import org.apache.hadoop.conf.Configuration; 4 import or

大資料篇：hadoop測試WordCount mapreduce出錯問題

[[email protected] ~]# hadoop jar /usr/local/hadoop-2.8.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.4.jar wordcount /data/wordcount /o

大資料篇：hadoop測試WordCount hdfs拒絕連線

18/11/02 11:50:03 INFO ipc.Client: Retrying connect to server: master/192.168.10.251:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCo

給老闆減刑系列之hadoop 安全缺陷分析之一：kerberos 的缺陷

近一年來從事金融資料安全架構方面工作，對大資料平臺安全重要性有了一些新的思考。最近看了Steve Loughran先生寫的本書《Hadoop and Kerberos: The Madness Beyond the Gate》，寫作風格幽默風趣，但是國內對大資料平臺的安全考慮的文

Hadoop-（wordcount升級版）分析日誌統計IP地址來源

1. 前言由於隱私問題，這裡不提供日誌，可自行準備或隨機生成。下面給出的程式碼統計的資料檔案格式是定的，如果格式與博主不同，請適當修改程式碼。 2. 分析分析日誌統計出IP地址來源，重點無非是IP地址，如下圖：通過正則表示式提取合理IP地址：

Hadoop-MapReduce計算案例1：WordCount

案例描述：計算一個檔案中每個單詞出現的數量程式碼： package com.jeff.mr.wordCount; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem;

第一個hadoop程式：WordCount

2. 新增編譯依賴類庫首先點選選項卡“Libraries”。再點選“Add External JARs…”按鈕新增編譯依賴類庫，分別新增目錄“D:/hadoop-2.6.0-cdh5.4.2/share/hadoop/mapreduce1”、“D:/hadoop-2.6.0-cdh5.4.2/share

hadoop入門經典：wordcount程式碼詳解

package cn.yzx.bigdata.mr.wcemo; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.ap

Hadoop Metrics體系分析之一：認識Metrics

對於分散式軟體系統來說Metrics已經成為了不可缺少的組成部分，通過它我們可以瞭解系統的執行狀況、健康狀況、效能狀況，通過對歷史資料的分析，也可以幫助我們發現系統缺陷以及避免系統不穩定的發生。比如通過JVM資料我們可以優化系統GC策略，通過TPS和latency資料可以

Hadoop之WordCount詳解

ride 開始 zookeepe ati 程序 form 數組 -c 狀態花了好長時間查找資料理解、學習、總結這應該是一篇比較全面的MapReduce之WordCount文章了耐心看下去 1，創建本地文件在hadoop-2.6.0文件夾下創建一個文件夾data，在其

軟件工程作業二：WordCount實現與改進

import 函數 another buffer frequency ++ 兩種 read keyset 首先，我在網上找了一個WordCount的源碼，在源碼上進行修改原文博主：波濤洶湧原文鏈接：http://blog.sina.com.cn/s/blog_51335

個人作業2：網站分析之慕課網

配置一次 adding tar 可能經理不同自己的同方產品名　　慕課網（網站）選擇原因　　　　目前使用比較頻繁的網站，也是程序員必備的一個網站第一部分調研，評測　　1、第一次上手體驗。首頁分類清楚，可以根據課程，職業路徑，還可以使用模糊查詢，根據需

團隊作業2：需求分析&原型設計

符號原型設計工具日期 clas max 獲得痛苦組合人員 Deadline： 2017-11-5 22:00PM，以博客發表日期為準。評分基準: 按時交 - 有分，檢查的項目包括後文的三個方面需求分析原型設計編碼規範晚交

第二次團隊作業：需求分析

都是級別方便查看編號選擇商品列表 spa 定時網上購菜系統，是用於管理用戶在網上下單買菜的系統。一. 需求來源分析：　　隨著越來越多的年輕人傾向於“走出去”，即獨自闖蕩，並且大多數的人均為朝九晚五的上班族。對於他們而言，快餐外賣成為了解決午飯或者晚飯的主要

數據挖掘算法：關聯分析一（基本概念）

latin ron 來看關聯 row 集中 items 多個可能性一.基本概念　　我們來看上面的事務庫，如同上表所示的二維數據集就是一個購物籃事務庫。該事物庫記錄的是顧客購買商品的行為。這裏的TID表示一次購買行為的編號，items表示顧客購買了哪些商品。　　事

Caffe 使用記錄（五）：math_functions 分析

nbsp after caf oat 全部 rand() sad oid end 本文轉載自 Caffe源碼（一）：math_functions 分析 math_function 定義了caffe 中用到的一些矩陣操作和數值計算的一些函數，這裏以float類型為例做

Hadoop下WordCount程序

有一個技術分享 hadoop 自己 wordcount examples pretty 準備工作 number 一、前言在之前我們已經在 CenOS6.5 下搭建好了 Hadoop2.x 的開發環境。既然環境已經搭建好了，那麽現在我們就應該來幹點正事嘛！比如來一個Ha

第4周小組作業：WordCount優化

report 應該有一個文件 ase 第一個一行好的速度 1.基本任務項目地址　　https://github.com/JarrySmith/WordCountPro PSP表格 PSP2.1表格 PSP2.1 P

軟件質量與測試第4周小組作業：WordCount優化

結果文本一個統計 and 詞頻統計 adf highlight line GitHub項目地址 https://github.com/Guchencc/WordCounter 組長：　　陳佳文：負責詞頻統計模塊與其他模塊組員：　　屈佳燁：負責排序模塊　

第四周小組作業：WordCount優化

ring 實現測試用例設計 cells strong src 估計 OS 用例 Github地址： https://github.com/skz12345/wcPro PSP表格: PSP PSP階段預估耗時(分鐘) 實際耗時(分鐘) P

Hadoop：WordCount分析

相關推薦