大資料-Hadoop-MapReduce (二) WrodCount單詞計算

阿新 • • 發佈：2019-02-05

Hadoop-MapReduce (二) -WrodCount單詞計算

一句話理解: 將很多很多的文字檔案遍歷計算出每一個單詞出現的次數
-擴充套件閱讀TF-IDF詞頻-逆向文件頻率

(WordCount).單詞計算

有文字如下: a b c b b c c d c 需得到結果為: a 1 b 3 c 4 d 1 原理如圖:

1)Map 將每一行的單詞計數為1 Map<word,1>

// 輸入為一行行的資料 其中 LongWritable key為下標，Text value 為這一行文字
	// 假設這一行資料為 b c d e e e e
	public static class TokenizerMapper extends Mapper {
		protected void map(LongWritable key, Text value, org.apache.hadoop.mapreduce.Mapper.Context context)
				throws IOException, InterruptedException {
			String lineStr = value.toString();// 得到一行文字
			// 使用空格分離 預設引數為空格
			StringTokenizer words = new StringTokenizer(lineStr);
			while (words.hasMoreElements()) {
				String word = words.nextToken();// 得到這個單詞
				//if(word.contains("Maturity"))
					// 交這個單詞計數+1
					context.write(new Text(word), new IntWritable(1));// 輸出到map
			}
		}
	}

2)Shuffling 對每一個單詞進行分類合併 Map<word,<1,1>> 3)Reduce 對每一個單詞累加 word = 1 + 1

// input e1 e1 e1 e1
	// output e4
	//public static class IntSumReducer extends Reducer {
    public static class IntSumReducer extends Reducer {
        public void reduce(Text key, Iterable values, Reducer.Context context) throws IOException, InterruptedException {
        	int count = 0;
			// String word = key.toString();
			for (IntWritable intWritable : values) {
				// 迴圈
				count += intWritable.get();
			}
			// 輸出
				context.write(key, new IntWritable(count));
        }
    }

4)Job運算

public class WordCount {

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();
		String inputPath = "input/wordcount";
		String outputPath = "output/wordcount";
		// String[] otherArgs = (new GenericOptionsParser(conf,
		// args)).getRemainingArgs();
		String[] otherArgs = new String[] { inputPath, outputPath }; /* 直接設定輸入引數 */
		// delete output
		Path outputPath2 = new Path(outputPath);
		outputPath2.getFileSystem(conf).delete(outputPath2, true);

		
		// run
		if (otherArgs.length < 2) {
			System.err.println("Usage: wordcount  [...] ");
			System.exit(2);
		}

		Job job = Job.getInstance(conf, "word count");
		job.setJarByClass(WordCount.class);
		job.setMapperClass(WordCount.TokenizerMapper.class);
		//job.setCombinerClass(WordCount.IntSumReducer.class);
		job.setReducerClass(WordCount.IntSumReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		//output file total
		//job.setNumReduceTasks(1);//reducer task num  
		for (int i = 0; i < otherArgs.length - 1; ++i) {
			FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
		}

		FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}

轉載請註明出處,謝謝!

大資料-Hadoop-MapReduce (二) WrodCount單詞計算

Hadoop-MapReduce (二) -WrodCount單詞計算一句話理解: 將很多很多的文字檔案遍歷計算出每一個單詞出現的次數 -擴充套件閱讀TF-IDF詞頻-逆向文件頻率 (Wor

大資料09--MapReduce習題~統計單詞數量

一、利用MapReduce計算單詞 WordcountDriver ** * 相當於一個yarn叢集的客戶端 * 需要在此封裝我們的mr程式的相關執行引數，指定jar包 * 最後提交給yarn */ public class WordcountDriver { public

大資料-Hadoop-MapReduce (一) 第一性原理

Hadoop-MapReduce的第一性原理一句話理解: 在hdfs的基礎上,可以把超過PB級別的日誌檔案(一般為文字檔案),以Map的方式逐行處理形成 Map<A,1>Map<

大資料(hadoop-Mapreduce原理架構)

課程目標： 1：MapReduce的應用場景 2：MapReduce程式設計模型 3：MapReduce的架構 4：常見

大資料Hadoop學習筆記（二）

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

大資料Hadoop之HDFS模組《二》

上篇我們介紹了hdfs的一些概念和優缺點那麼我們這篇便來說說hdfs的讀寫流程和一些常用的命令：《一》讀寫流程一、hdfs 讀流程（下載檔案）　1） client向namenode發出下載請求，namenode查詢元資料資訊，找到檔案塊所在的datanode

大資料-Hadoop生態(13)-MapReduce框架原理--Job提交原始碼和切片原始碼解析

1.MapReduce的資料流 1) Input -> Mapper階段輸入源是一個檔案,經過InputFormat之後,到了Mapper就成了K,V對,以上一章的流量案例來說,經過InputFormat之後,變成了手機號為key,這一行資料為value的K,V對,所以這裡我們可以自定義Inp

大資料-Hadoop生態(14)-MapReduce框架原理-切片機制

1.FileInputFormat切片機制切片機制比如一個資料夾下有5個小檔案,切片時會切5個片,而不是一個片案例分析 2.FileInputFormat切片大小的引數配置原始碼中計算切片大小的公式切片大小設定獲取切片大小API 3. CombineT

大資料-Hadoop生態(15)-MapReduce框架原理-自定義FileInputFormat

1. 需求將多個小檔案合併成一個SequenceFile檔案（SequenceFile檔案是Hadoop用來儲存二進位制形式的key-value對的檔案格式），SequenceFile裡面儲存著多個檔案，儲存的形式為檔案路徑+名稱為key，檔案內容為value 三個小檔案 on

大資料-Hadoop生態(17)-MapReduce框架原理-MapReduce流程,Shuffle機制,Partition分割槽

MapReduce工作流程 1.準備待處理檔案 2.job提交前生成一個處理規劃 3.將切片資訊job.split,配置資訊job.xml和我們自己寫的jar包交給yarn 4.yarn根據切片規劃計算出MapTask的數量 (以一個MapTask為例) 5.Maptask呼叫

大資料-Hadoop生態(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分組

1.排序概述 2.排序分類 3.WritableComparable案例這個檔案,是大資料-Hadoop生態(12)-Hadoop序列化和原始碼追蹤的輸出檔案,可以看到,檔案根據key,也就是手機號進行了字典排序 13470253144 180 180

大資料 hadoop hdfs mapreduce

大資料hadoop Hadoop是一個開源的框架，也是Apache的一個頂級專案。Hadoop框架中由兩大模組組成，一個HDFS(Hadoop Distributed File System)，是用來儲存需要處理資料，另外一個是MapReduce，是Hadoop的處理資料的計算模型。

大資料教程（二）—— Hadoop叢集壞境CentOS安裝

前言前面我們主要分析了搭建Hadoop叢集所需要準備的內容和一些提前規劃好的項，本篇我們主要來分析如何安裝CentOS作業系統，以及一些基礎的設定，閒言少敘，我們進入本篇的正題。技術準備 VMware虛擬機器、CentOS 6.8 64 bit 安裝流程因為我的筆記本

Thinking in BigData（八）大資料Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解

純乾貨：Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解。通過這一階段的調研總結，從內部機理的角度詳細分析，HDFS、MapReduce、Hbase、Hive是如何執行，以及基於Hadoop資料倉庫的構建和分散式資

大資料Hadoop叢集環境搭建（二）

第一部分 Linux環境安裝一、Vmware網路模式介紹參考：http://blog.csdn.net/collection4u/article/details/14127671 二、Linux環境VMware14與CenterOs7安裝版本參考：https://blo

什麼是Hadoop（大資料基礎系列二）

MapReduce 是適合海量資料處理的程式設計模型。Hadoop是能夠執行在使用各種語言編寫的MapReduce程式： Java, Ruby, Python, and C++. MapReduce程式是平行性的，因此可使用多臺機器叢集執行大規模的資料分析非常有用的。Ma

Kubernetes部署大資料元件系列二：一鍵部署Hadoop叢集

系列一中忘了說明，用Kubernetes部署大資料容器平臺，有一個很大的好處是壓根不用操心容器間的網路通訊，不管是同一物理伺服器內，還是跨物理伺服器間的網路通訊，你都不用操心，只需要把容器間互相關心的埠暴露好，把容器間的service name對映好，就OK了。本篇教大家部署Hadoop 2.7.3叢集，暫

hadoop-mapreduce-(1)-統計單詞數量

fig pack lib let ack 函數 text dex pri 編寫map程序 package com.cvicse.ump.hadoop.mapreduce.map; import java.io.IOException; import org.apach

[大資料]hadoop 聯邦機制及配置檔案

hadoop 聯邦機制 1 原理即多個ha 聯合組成一套叢集環境，對外提供一致介面【ViewFs】（相當於擴容）即cluserID 相等但是相同的datanode服務於不同的namenode。原理是通過namenodeID和blockPool-id來判別檔案存放的位置

[大資料] hadoop HA 配置

前提：已經通過上一篇的環境配置好了zookeeper環境 1 叢集規劃 bigdata01.com bigdata02.com bigdata02.com namenode n

大資料-Hadoop-MapReduce (二) WrodCount單詞計算

(WordCount).單詞計算

相關推薦