MapReduce的wordcount實現

阿新 • • 發佈：2018-12-30

MapReduce的wordcount主要分為兩個階段，Map和Reduce階段，具體流程如下圖。

（1）MapReduce有一個預設的排序規則，是按照字典順序排序的（大寫字母順序->小寫字母順序->數字順序）

（2）part-r-00000檔案中的part是分割槽的意思，MapReduce預設只有一個分割槽

在yarn上檢視MapReduce的執行過程，分為三個階段

map階段的程式

package wc;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends Mapper<LongWritable ,Text ,Text,IntWritable>{
	
	protected void map(LongWritable key1,Text value1,Context context)
		throws IOException,InterruptedException {
		/*
		 * context  表示Mapper的上下文
		 * 上文：HDFS
		 * 下文：Mapper
		 */
		//資料：I love Beijing
		String data = value1.toString();
		
		//分詞
		String[] words = data.split(" ");
		
		//輸出K2  V2
		for(String w:words) {
			context.write(new Text(w), new IntWritable(1));
		}
	}
}

Reduce階段的程式

package wc;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
	
	protected void reduce(Text k3,Iterable<IntWritable> v3,Context context) throws IOException, InterruptedException {
		/*
		 * context是reduce的上下文
		 * 上文
		 * 下文
		 */
		//對v3求和
		int total = 0;
		for(IntWritable v:v3) {
			total += v.get();
		}
		
		//輸出        k4   單詞         v4   頻率
		context.write(k3, new IntWritable(total));
	}

}

主程式

package wc;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountMain {

	public static void main(String[] args) throws Exception {
		
		//建立一個job和任務入口
		Job job = Job.getInstance(new Configuration());
		//main方法所在的class
		job.setJarByClass(WordCountMain.class);
		
		//指定job的mapper和輸出的型別<k2 v2>
		job.setMapperClass(WordCountMapper.class);
		job.setMapOutputKeyClass(Text.class);   //k2的型別
		job.setMapOutputValueClass(IntWritable.class);   //v2的型別
		
		//指定job的Reducer和輸出的型別<k4 v4>
		job.setReducerClass(WordCountReducer.class);
		job.setOutputKeyClass(Text.class);    //k4的型別
		job.setOutputValueClass(IntWritable.class);   //v4的型別
		
		//指定job的輸入和輸出
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		//執行job
		job.waitForCompletion(true);
		
		
	}

}

在程式的過程中出現的錯誤

第一行多出現了一個數字1，是因為在test.txt檔案中，最後多寫了空格

這種情況是reducer出現了問題

多寫了一個r字母

正確的結果為

ConcurrentHashMap實現線程安全的原理

訪問數據 key 出現擁有操作 tab htable segment 在ConcurrentHashMap沒有出現以前，jdk使用hashtable來實現線程安全，但是hashtable是將整個hash表鎖住，所以效率很低下。 ConcurrentHashMap將數據

PYTHON實現DFS算法

python clas gray pytho logs urn turn white blog 1 class Vertice: 2 def __init__(self,index): 3 self.no = index 4 self.colo

sql 實現用戶名、郵箱、手機號登錄

append nes class select logs lec email mobile () StringBuilder strSql = new StringBuilder(); strSql.Append("se

python基礎之socket編程-------基於tcp的套接字實現遠程執行命令的操作

logs lose stream res std 遠程控制 python log out 遠程實現cmd功能： import socket import subprocess phone=socket.socket(socket.AF_INET,socket.SOC

利用css3的animation實現點點點loading動畫效果（二）

設置 str ack rdp 提交 ssi frame spin color box-shadow實現的打點效果簡介 box-shadow理論上可以生成任意的圖形效果，當然也就可以實現點點點的loading效果了。實現原理 html代碼，首先需要寫如下html代

JAVA實現EXCEL公式專題（四）——字符串函數

main 問題 int start boolean java ... ringbuf out substring 直接上代碼：/** * 項目名稱： * 文件說明： ExCEL公式類型：字符串公式 * 主要特點： * 版本：1.0 * 制作人：劉晨曦

網頁內容解析簡單實現

return end pro spa del crawl 測試節點 nod 概述　　在日常開發工作中，有時候我們需要去一些網站上抓取數據，要想抓取數據，就必須先了解網頁結構，根據具體的網頁結構，編寫對應的程序對數據進行采集。最近剛好有一個需求，需要更新收貨地址

php 非遞歸實現分類樹

false exists rem parent 大數據左右無限參考 ont 本文實例講述了php通過前序遍歷樹實現無需遞歸的無限極分類。分享給大家供大家參考。具體如下：大家通常都是使用遞歸實現無限極分類都知道遞歸效率很低，下面介紹一種改進的前序遍歷樹算法，不適用遞歸

onedrive實現excel在線編輯 online excel

0.10 能夠 con system sky 登錄配置 com 打開 1.首先用火狐瀏覽器或者谷歌瀏覽器登錄 https://onedrive.live.com 2.註冊郵箱賬戶信息 3.在郵箱激活賬戶信息 4.登錄進去。點擊我的賬戶，點擊左側文件樹。點選上載，將文

python 、mmap 實現內存數據共享

python access import 字符串二進制 import mmap mmap_file = None##從內存中讀取信息，def read_mmap_info(): global mmap_file mmap_file.seek(0)

ASP.NET Core實現強類型Configuration讀取配置數據

控制器項目最好前言實現讀取JSON文件幾種方式，在項目中采取老辦法簡單粗暴，結果老大過來一看，恩，這樣不太可取，行吧那我就用.NET Core中最新的方式諾，切記，適合的才是最好的，切勿懶。.NET Core讀取JSON文件通過讀取文件方式當我將VS2015項目用VS2017打開後

Web驗證碼圖片的生成-基於Java的實現

submit esc page resp ioe 代碼 oge cnblogs pro 驗證碼圖片是由程序動態產生的，每次訪問的內容都是隨機的。那麽如何采用程序動態產生圖片，並能夠顯示在客戶端頁面中呢？原理很簡單，對於java而言，我們首先開發一個Servlet，這個Se

侵入式單鏈表的簡單實現

== uri new cast amp typedef all 內存地址類型通常情況下，單鏈表的定義是這樣子滴， typedef struct foo_s { int data; struct foo_s

pyhthon 利用爬蟲結合阿裏大於短信接口實現短信發送天氣預報

logging restapi cep elf except cnblogs author div time() 1 # -*- coding: utf-8 -*- 2 ‘‘‘‘‘ 3 SDK for alidayu 4 5

作業08之《MVC實現用戶權限》

用戶驗證配置配置文件接收登錄頁面模型 mode mvc 驗證 1. 賦給用戶一個userid，在用戶角色表將用戶和角色關聯起來，在角色權限表中將角色和權限對應起來，權限表中存儲的是左邊菜單欄的名稱。 2. 在判斷權限時，通過用戶的userid，獲取其角色id，然後

js實現輸入字數跟蹤

跟蹤 bin on() per red 字數 code dom 輸入 $("textarea[text-name=tea-notice]").bind(‘input propertychange‘, function() { 　　var dom_div = $("#t

鼠標滾輪實現圖片的縮放-------Day79

auto 生活 lis asc alt easy opera play log 今天是7月的最後一天了，不得不說，我定下的七月份剩余幾天的計劃是完不成了。一則工作確實緊了些，再則沒能處理好生活、工作和學習的節奏。這才是人生最大的課題吧。只是也還好。至少自己還在堅持著。事

js實現動態刪除表格的行或者列-------Day57

back _id ron easy 技術註意次循環 ont 時序昨天記錄了動態加入表格的一行，當然這個一行是指一行數據，也就是說一行多少列也是加上的，而且第幾列的內容都能夠加入上，先來回想下它的實現的關鍵點： 1、var row=table.i

div實現自適應高度的textarea，實現angular雙向綁定

amp 屬性 top 方式 androi android 可編輯 str == 相信不少同學模擬過騰訊的QQ做一個聊天應用，至少我是其中一個。過程中我遇到的一個問題就是QQ輸入框，自適應高度，最高高度為3row。如果你也像我一樣打算使用textarea，那麽很抱歉，你一

js實現輪播圖

display lex tee 添加 har scrip con tle win 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF

MapReduce的wordcount實現

相關推薦