Mapreduce例項---統計單詞個數（wordcount）

阿新 • • 發佈：2019-02-10

一：問題介紹

統計每一個單詞在整個資料集中出現的總次數。

資料流程：

二：需要的jar包

Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.jar
hadoop-2.4.1\share\hadoop\hdfs\lib\所有jar包

hadoop-2.4.1\share\hadoop\common\hadoop-common-2.4.1.jar
hadoop-2.4.1\share\hadoop\common\lib\所有jar包

hadoop-2.4.1\share\hadoop\mapreduce\除hadoop-mapreduce-examples-2.4.1.jar之外的jar包
hadoop-2.4.1\share\hadoop\mapreduce\lib\所有jar包

三：程式碼

mapper類實現：

/*
 * KEYIN：輸入kv資料對中key的資料型別
 * VALUEIN：輸入kv資料對中value的資料型別
 * KEYOUT：輸出kv資料對中key的資料型別
 * VALUEOUT：輸出kv資料對中value的資料型別
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	
	/*
	 * map方法是提供給map task程序來呼叫的，map task程序是每讀取一行文字來呼叫一次我們自定義的map方法
	 * map task在呼叫map方法時，傳遞的引數：
	 * 		一行的起始偏移量LongWritable作為key
	 * 		一行的文字內容Text作為value
	 */
	@Override
	protected void map(LongWritable key, Text value,Context context) throws IOException, InterruptedException {
		//拿到一行文字內容，轉換成String 型別
		String line = value.toString();
		//將這行文字切分成單詞
		String[] words=line.split(" ");
		
		//輸出<單詞，1>
		for(String word:words){
			context.write(new Text(word), new IntWritable(1));
		}
	}
}

reducer類實現：

/*
 * KEYIN：對應mapper階段輸出的key型別
 * VALUEIN：對應mapper階段輸出的value型別
 * KEYOUT：reduce處理完之後輸出的結果kv對中key的型別
 * VALUEOUT：reduce處理完之後輸出的結果kv對中value的型別
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
	@Override
	/*
	 * reduce方法提供給reduce task程序來呼叫
	 * 
	 * reduce task會將shuffle階段分發過來的大量kv資料對進行聚合，聚合的機制是相同key的kv對聚合為一組
	 * 然後reduce task對每一組聚合kv呼叫一次我們自定義的reduce方法
	 * 比如：<hello,1><hello,1><hello,1><tom,1><tom,1><tom,1>
	 *  hello組會呼叫一次reduce方法進行處理，tom組也會呼叫一次reduce方法進行處理
	 *  呼叫時傳遞的引數：
	 *  		key：一組kv中的key
	 *  		values：一組kv中所有value的迭代器
	 */
	protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
		//定義一個計數器
		int count = 0;
		//通過value這個迭代器，遍歷這一組kv中所有的value，進行累加
		for(IntWritable value:values){
			count+=value.get();
		}
		
		//輸出這個單詞的統計結果
		context.write(key, new IntWritable(count));
	}
}

job提交客戶端實現：

public class WordCountJobSubmitter {
	
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		Configuration conf = new Configuration();
		Job wordCountJob = Job.getInstance(conf);
		
		//重要：指定本job所在的jar包
		wordCountJob.setJarByClass(WordCountJobSubmitter.class);
		
		//設定wordCountJob所用的mapper邏輯類為哪個類
		wordCountJob.setMapperClass(WordCountMapper.class);
		//設定wordCountJob所用的reducer邏輯類為哪個類
		wordCountJob.setReducerClass(WordCountReducer.class);
		
		//設定map階段輸出的kv資料型別
		wordCountJob.setMapOutputKeyClass(Text.class);
		wordCountJob.setMapOutputValueClass(IntWritable.class);
		
		//設定最終輸出的kv資料型別
		wordCountJob.setOutputKeyClass(Text.class);
		wordCountJob.setOutputValueClass(IntWritable.class);
		
		//設定要處理的文字資料所存放的路徑
		FileInputFormat.setInputPaths(wordCountJob, "hdfs://192.168.77.70:9000/wordcount/srcdata/");
		FileOutputFormat.setOutputPath(wordCountJob, new Path("hdfs://192.168.77.70:9000/wordcount/output/"));
		
		//提交job給hadoop叢集
		wordCountJob.waitForCompletion(true);
	}
}

四：操作流程

1、將專案打成jar包上傳到虛擬機器上

2、建立文字資料

3、將文字資料上傳到hdfs

4、執行jar檔案

5、結果

Mapreduce例項---統計單詞個數（wordcount）

一：問題介紹統計每一個單詞在整個資料集中出現的總次數。資料流程：二：需要的jar包 Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.ja

統計單詞個數（NOIP 2001提高組）

sample 字符串重疊 -s pre rom 長度最大的解析題目描述 Description 給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<=

[hadoop]MapReduce例項之好友推薦（六）

一、定義好友檔案qq hadoop hello hdfs world tom cat cat dog hello world hello hdfs hadoop好友hello，hdfs好友worl

Hadoop實戰（一），單詞計數（wordcount）

目的通過特定Hadoop Demo實戰，瞭解、學習、掌握大資料框架日常使用及嘗試挑戰大資料研發過程中遇到的挑戰等。場景描述運用MapReduce 進行簡單的單詞計數統計。實驗

noip2011 統計單詞數（模擬）

一般的文字編輯器都有查詢單詞的功能，該功能可以快速定位特定單詞在文章中的位置，有的還能統計出特定單詞在文章中出現的次數。現在，請你程式設計實現這一功能，具體要求是：給定一個單詞，請你輸出它在給定的文章中出現的次數和第一次出現的位置。!!注意：匹配單詞時，不區分大小寫，但要求完全匹配，即給

組合語言統計負數個數（二）

STACK1 SEGMENT STACK DW 256 DUP(?) STACK1 ENDS DDATA SEGMENT NUMB DB 12H,88H,82H,89H,3

SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

1.實現功能現實中，不僅需要統計，當前批次的單詞個數，還需要統計，迄今為止的總的單詞個數。這個就是需要，使用到updateStateByKey運算元。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.ht

統計一行文字的單詞個數（15 分）本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let's go to room 209. 輸出樣例

MD,一開始就想著怎麼用空格和結尾前判斷字母來計算寫的頭的爆了，反過來判斷空格後面是否有 =‘ ’就尼瑪容易多了 #include<stdio.h> #include<stdlib.h> #include<string.h> int

習題6-8 統計一行文字的單詞個數（15 point(s)）

習題6-8 統計一行文字的單詞個數（15 point(s)）本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let

水一水 )統計一行文字的單詞個數（15 分）(c語言）

7-2 統計一行文字的單詞個數（15 分）本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let’s go

7-2 統計一行文字的單詞個數（15 分）

7-2 統計一行文字的單詞個數（15 分）本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let’s go to room

習題6-8 統計一行文字的單詞個數（15 分）

本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式:輸入給出一行字元。輸出格式:在一行中輸出單詞個數。輸入樣例:Let's go to room 209. 輸出樣例:5#include<std

習題6-8 統計一行文字的單詞個數（15 分）

本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let’s go to room 209. 輸出樣例: 5 #includ

統計一篇文章單詞的個數（map）

統計一篇英文文章中單詞出現的頻率（為簡單起見，假定依次從鍵盤輸入該文章）關鍵字是string型別 #include<bits/stdc++.h> using namespace std; int main() { map<string, int

1400統計單詞數（noip2011普及組第2題）

統計單詞 etl space name main turn cin iostream pre 1 #include<cstdio> 2 #include<cstring> 3 #include<iostream> 4 #incl

習題6-1 分類統計字元個數（15 point(s)）

習題6-1 分類統計字元個數（15 point(s)）本題要求實現一個函式，統計給定字串中英文字母、空格或回車、數字字元和其他字元的個數。函式介面定義： void StringCount( char s[] ); 其中 char s[] 是使用者傳入的字串。函式StringC

OpenCV---如何統計影象的畫素分佈值個數（6）

程式碼如下： import cv2 as cv import matplotlib.pyplot as plt import numpy as np def statistics(): src = cv.imread("D:/matplotlib/0.jpg") cv.imshow(

Hadoop-MapReduce初步應用-統計單詞個數

參考官網的單詞統計，上傳文字檔案讀取資料，統計等，首先準備好文字檔案，隨便寫點單詞，再看統計結果正確與否。註釋都寫在程式碼裡了，希望能幫到入門的開發人員專案結構如下，讀出的資料一起發出來了 package hadoop.com.test; import

Mapreduce例項-分組排重（group by distinct）

需要實現以下幾個類,程式碼太多，列了下主要程式碼，可根據排重資料的特徵判讀是否需要新增combiner來提速。public class GroupComparator implements RawComparator<MyBinaryKey> { @Over

zcmu--1750: 統計單詞數（字串處理）

1750: 統計單詞數 Time Limit: 1 Sec Memory Limit: 128 MB Submit: 361 Solved: 66 [Submit][Status][Web Board] Description 一般的文字編輯器都有查詢單詞的功能，

Mapreduce例項---統計單詞個數（wordcount）

相關推薦