hadoop-WordCount單詞統計

阿新 • • 發佈：2018-12-19


/**
 * 		
 *Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
 *
 *輸入 key 文字中偏移量 
 *value 文字中的內容
 *
 *輸出 key 是文字的內容 
 *
 *value 是單詞出現的次數 
 */
public class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable>{

	private Text k=new Text();
	
	@Override
	protected void map(LongWritable key, 
 Text value,Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		
		//1 獲取一行的資料 
		
		String line=value.toString();
		
		//2 切割  按照空格切分
		
		String[] words=line.split(" ");
		
		for(String word:words) {
			
			k.set(word);   //把String型別的word 轉換為Text型別
			//3 輸出到Reduce  

			context.write(k, new IntWritable(1));
		}
		
	
	}
	
	
	//需要實現Map方法編寫業務邏輯
	

}

/*
hello 1
 *hadoop 1
 *
 *hadoop 1
 *
 *hadoop 2
 *
 *把相同key的values進行累加  
 */

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable>{

	@Override
	protected void reduce(Text key, Iterable< 
IntWritable> values,
			Context context) throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		
		int sum=0; 
		
		for(IntWritable count:values) {
			
			sum+=count.get();
			
		}
		
		//輸出
		context.write(key, new IntWritable(sum));
		
	}
  
}
public class Driver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		
		
		//1 獲得配置資訊 
		
		Configuration config=new Configuration();
		// 例項化 job類 並且把配置資訊傳給job
		Job job=Job.getInstance(config);
		
		// 通過反射機制 載入主類的位置
		job.setJarByClass(Driver.class);
		
		//設定map和reduce類
		job.setMapperClass(WordCountMap.class);
		job.setReducerClass(WordCountReduce.class);
		
		
		//設定map的輸出 
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		
		
		//設定redue的輸出
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		//設定檔案的輸入 輸出路徑
		
		FileInputFormat.setInputPaths(job, new Path("/input"));
		
		FileOutputFormat.setOutputPath(job, new Path("/output"));
		
		//提交任務 
		
		boolean result=job.waitForCompletion(true);
		
		System.exit(result?0:1);
		
	}
}

hadoop-WordCount單詞統計

/** * *Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> * *輸入 key 文字中偏移量 *value 文字中的內容 * *輸出 key 是文字的內容 * *value 是單詞出現

Hadoop WordCount單詞計數原理

clas oop 圖片 tput 進行打包 red div src 計算文件中出現每個單詞的頻數輸入結果按照字母順序進行排序編寫WordCount.java 包含Mapper類和Reducer類編譯WordCount.java javac -classp

spark wordcount 單詞統計

spark wordcount 單詞統計檔案1.txt hello world hello tom hello lucy tom lucy hello python # -*- coding:utf-8 -*- import os import shutil from pyspark

hadoop-mapreduce-(1)-統計單詞數量

fig pack lib let ack 函數 text dex pri 編寫map程序 package com.cvicse.ump.hadoop.mapreduce.map; import java.io.IOException; import org.apach

004簡單介紹WordCount，統計文本單詞次數

override map() inter 根據 tasks mat import values com MapReduce簡介 MapReduce是一種分布式計算模型,主要解決海量數據的計算問題。 MR有兩個階段組成：Map和Reduce，用戶只需實現map()和redu

Hadoop之Wordcount流量統計入門例項

一：何為MapReduce HDFS和MapReduce是Hadoop的兩個重要核心，其中MR是Hadoop的分散式計算模型。MapReduce主要分為兩步Map步和Reduce步，引用網上流傳很廣的一個故事來解釋，現在你要統計一個圖書館裡面有多少本書，為了完成這個任務，你可以指派小明去統計書架

Scala +Spark+Hadoop+Zookeeper+IDEA實現WordCount單詞計數（簡單例項）

IDEA+Scala +Spark實現wordCount單詞計數一、新建一個Scala的object單例物件，修改pom檔案（1）下面文章可以幫助參考安裝 IDEA 和新建一個Scala程式。（2）pom檔案 <?xml

Storm-wordcount實時統計單詞次數

一、本地模式 1、WordCountSpout類 package com.demo.wc; import java.util.Map; import org.apache.storm.spout.SpoutOutputCollector; import org.apache.storm.task

hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

剛剛研究了一下haoop官網單詞計數的例子，把詳細步驟解析貼在下面：準備工作： 1、haoop叢集環境搭建完成 2、新建一個檔案hello,並寫入2行單詞，如下： [[email protected] hadoop-2.6.0]# vi hello hello

Scala+Spark+Hadoop+IDEA實現WordCount單詞計數，上傳並執行任務（簡單例項-下）

Scala+Spark+Hadoop+IDEA上傳並執行任務本文接續上一篇文章，已經在IDEA中執行Spark任務執行完畢，測試成功。一、打包 1.1 將setMaster註釋掉 package day05 import

Hadoop基礎學習（一）分析、編寫並執行WordCount詞頻統計程序

Hadoop wordcount Demon

dir 搭建 out light tails txt bash 運行結果截圖 -m 　　搭建完成Hadoop後，第一個demon,wordcount。此處參考：http://blog.csdn.net/wangjia55/article/details/53160679 　

Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數

scrip 發送消息 rip mark 3.2 umt 過程 bject ttr 1、創建Maven項目創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374 2、啟動Kafka A:安裝ka

一個單詞統計的實例，怎樣通過MapReduce完成排序？

mapreduce hadoop假設有一批海量的數據，每個數據都是由26個字母組成的字符串，原始的數據集合是完全無序的，怎樣通過MapReduce完成排序工作，使其有序（字典序）呢？對原始的數據進行分割（Split），得到N個不同的數據分塊：實例分析：WordCount這個類實現Mapper接口中的map 方

scala基本語法和單詞統計

引用包裝類 tab 組成 oop imp 2個 err 方法調用 scala 基本語法 1.聲明變量 (1)val i = 1 使用val聲明的變量值是不可變的，相當於java裏final修飾的變量，推薦使用。(2)var i = "hello" 使用var聲明的變量值是

【MapReduce實例】單詞統計

clas e30 xor acdb pwc blog tar target xorg 鍁ye廢此比構es熱誓腔垂斯鞍燎拼烙傯煞6k略史熱http://blog.sina.com.cn/s/blog_17cbe977f0102x7sl.html裂jb焚諢時鉤df緞字靖琴悼放克

spark jdk8 單詞統計示例

apache imp ace lang rtb use basis 寫法 work 在github上有spark-java8 實例地址： https://github.com/ypriverol/spark-java8 https://github.com/ihr/java

手動實現一個單詞統計MapReduce程序與過程原理分析

Hadoop MapReduce Java [toc] 手動實現一個單詞統計MapReduce程序與過程原理分析前言我們知道，在搭建好hadoop環境後，可以運行wordcount程序來體驗一下hadoop的功能，該程序在hadoop目錄下的share/hadoop/mapreduce目錄中

使用正則表達式進行單詞統計

nes int readline ole span dsw eno col 正則表達式 1 import java.io.BufferedReader; 2 import java.io.File; 3 import java.io.FileNotFoundExce

Storm筆記整理（二）：Storm本地開發案例—總和計算與單詞統計

大數據實時計算 Storm [TOC] 概述在Strom的API中提供了LocalCluster對象，這樣在不用搭建Storm環境或者Storm集群的情況下也能夠開發Storm的程序，非常方便。基於Maven構建工程項目，其所需要的依賴如下： <dependency>

hadoop-WordCount單詞統計

相關推薦