Hadoop mapduce 統計單詞程式設計示例

阿新 • • 發佈：2019-02-13

首先，完成mapper類

package sinc.hadoops.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

	@Override
	protected void map(LongWritable key, Text value,Context context)
			throws IOException, InterruptedException {
		String line = value.toString();
		String[] words = line.split(" ");
		for (String w : words) {
			context.write(new Text(w), new LongWritable(1));
		}
	}

}

再完成reduce類

package sinc.hadoops.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
	@Override
	protected void reduce(Text key, Iterable<LongWritable> values, Context context)
			throws IOException, InterruptedException {
		long counter = 0;
		for (LongWritable l : values) {
			counter += l.get();
		}
		context.write(key, new LongWritable(counter));
	}
}

最後完成主類main方法：

package sinc.hadoops.mr;

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class WordCount {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

		if (args.length < 2) {
			System.err.println("Input math and out path");
			System.exit(-1);
		}
		
		Job job = Job.getInstance();
		
		//重要：main方法所在類
		job.setJarByClass(WordCount.class);
		
		//設定mapper相關屬性
		job.setMapperClass(WCMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		//設定reducer相關屬性
		job.setReducerClass(WCReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		job.waitForCompletion(true);
	}

}

至此，編寫完成。

Hdfs上放入檔案/tmp/test

hello zhang san hello zhang si hello nihao
hello zhang wu

執行：hadoop jar wordcount.jar /tmp/test /tmp/201701181347

檢視：hadoop fs -ls /tmp/201701181347

-rw-r--r-- 2 root supergroup 0 2017-01-18 13:53 /tmp/201701181347/_SUCCESS
-rw-r--r-- 2 root supergroup 40 2017-01-18 13:53 /tmp/201701181347/part-r-00000

檢視結果：hadoop fs -cat /tmp/201701181347/part-r-00000

hello 4
nihao 1
san 1
si 1
wu 1
zhang 3

至此，測試結束。

Hadoop mapduce 統計單詞程式設計示例

首先，完成mapper類 package sinc.hadoops.mr; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.i

hadoop-mapreduce-(1)-統計單詞數量

fig pack lib let ack 函數 text dex pri 編寫map程序 package com.cvicse.ump.hadoop.mapreduce.map; import java.io.IOException; import org.apach

Java程式設計，統計單詞個數

題目統計一篇文件資料中單詞的個數（提示文件資料可放在字串中，利用正則表示式來實現） import java.util.Scanner; public class DemoTest{ String regex="[\\d\\s\\p{Punct}]+";//用正則表示式來作為分割標記

Hadoop-MapReduce初步應用-統計單詞個數

參考官網的單詞統計，上傳文字檔案讀取資料，統計等，首先準備好文字檔案，隨便寫點單詞，再看統計結果正確與否。註釋都寫在程式碼裡了，希望能幫到入門的開發人員專案結構如下，讀出的資料一起發出來了 package hadoop.com.test; import

Hadoop Steaming程式設計示例

本文將完整介紹一個Hadoop Streaming的程式wordcount的執行過程，Hadoop的工作原理等請自行查詢資料。為了能夠執行一個簡單的程式，需要這些檔案。這裡以C++為例，mapper程式和reducer程式都用C++編寫當然cpp檔案是不能直接在

Hadoop—MapReducer統計文件的單詞出現的個數

key 都是 val 兩個一份 sta rdquo water site 1. MapReduce 統計文件的單詞出現的個數 Mapper: 處理具體文本，發送結果 Reducer: 合並各個Mapper發送過來的結果 Job: 制定相關配置，框架 Mapp

【基礎水題】統計單詞個數

int pan 一個 else art 個數 print urn 是不是 1 //1.統計單詞的個數 2 #include <stdio.h> 3 int main(void) 4 { 5 int i, flag = 0, number =

P1026 統計單詞個數

word 截斷 area for name center 方程拆分決策 P1026 統計單詞個數題目描述給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<

Hadoop MapReduce 官方教程 -- WordCount示例

get pre red oop hadoop apache tor ria pac Hadoop MapReduce 官方教程 -- WordCount示例： http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.h

1400統計單詞數（noip2011普及組第2題）

統計單詞 etl space name main turn cin iostream pre 1 #include<cstdio> 2 #include<cstring> 3 #include<iostream> 4 #incl

Storm設計一個Topology用來統計單詞的TopN的實例

osi was 對象 turn col rms nds owin collect Storm的單詞統計設計一：Storm的wordCount和Hadoop的wordCount實例對比二：Storm的wordCount的方案實例設計三：建立maven項目，添

統計單詞個數（NOIP 2001提高組）

sample 字符串重疊 -s pre rom 長度最大的解析題目描述 Description 給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<=

lucene 統計單詞次數(詞頻)並進行排序

edm font tin total .html lan 技術 rms puts 1 public class WordCount { 2 static Directory directory; 3 // 創建分詞器 4 stati

統計單詞頻率

nal turn print har map.entry ted cat tree keys 今天老師又安排了一個任務：統計一個文件中出現最多的幾個單詞出現的頻率。怎麽說呢，還是一點不會，只能上網搜，通過兩小時的奮鬥，我還是沒能做出來，但是我知道了如何從讀取文件中的信息的

統計單詞個數

題目描述給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k≤40)，且每份中包含的單詞個數加起來總數最大(每份中包含的單詞可以部分重疊。當選用一個單詞之後，其第一個字母不能再用。例如字串this中

從零開始寫一個Spark Structured Streaming程式來統計單詞個數

本文將從零開始寫一個Spark Structured Streaming程式來統計單詞的個數。單詞的來源是socket，讀者也可以換成kafka，計算的結果輸出到控制檯，讀者也可以改成輸出到kafka的某個topic。準備環境： JDK和Scala安裝，並配置好環境變數JAVA_H

luogu1026_統計單詞個數_區間dp

題意 https://www.luogu.org/problemnew/show/P1026 solution 設f[i][j]表示1~i分成j分，最多的單詞數預處理一個sum[i][j]陣列，表示i~j包含的單詞數預處理的時候需要注意一個順序j從大到小

計算機考研複試真題統計單詞

題目描述編一個程式，讀入使用者輸入的，以“.”結尾的一行文字，統計一共有多少個單詞，並分別輸出每個單詞含有多少個字元。（凡是以一個或多個空格隔開的部分就為一個單詞）輸入描述: 輸入包括1行字串，以“.”結束，字串中包含多個單詞，單詞之間以一個或多個空格隔開。輸出描述:

Lua-stdlib 中的 functional 函數語言程式設計示例

local std = require("std"); addMultiply = std.functional.compose(function (x) return x + 2 end, function (x) return x * 10 end) print(addMultipl

shell 統計單詞頻率

#!/bin/bash #n個出現頻率最高的單詞 help(){ echo "該shell指令碼統計一個文字中出現次數最多的n個單詞" echo "usage: sh "$0" filename n" echo "filename 為你要統計的文字名稱 n為要統計的單詞個

Hadoop mapduce 統計單詞程式設計示例

相關推薦