[MapReduce_1] 執行 Word Count 示例程式

阿新 • • 發佈：2018-11-05

0. 說明

　　MapReduce 實現 Word Count 示意圖 && Word Count 程式碼編寫

1. MapReduce 實現 Word Count 示意圖

　　1. Map：預處理階段，將原始資料對映成每個 K-V，傳送給 reduce
　　2. Shuffle：混洗(分類)，將相同的 Key傳送給同一個 reduce
　　3. Reduce：聚合階段，把相同的 Key 進行聚合然後進行輸出

2. Word Count 程式碼編寫

　　[2.1 WCMapper]

package hadoop.mr.wc;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * Mapper 程式
 */
public class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
     
/**
     * map 函式，被呼叫過程是通過 while 迴圈每行呼叫一次
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 將 value 變為 String 格式
        String line = value.toString();
        // 將一行文字進行截串
        String[] arr = line.split(" ");

         
for (String word : arr) {
            context.write(new Text(word), new IntWritable(1));
        }

    }
}

　　[2.2 WCReducer]

package hadoop.mr.wc;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * Reducer 類
 */
public class WCReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    /**
     * 通過迭代所有的 key 進行聚合
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;

        for (IntWritable value : values) {
            sum += value.get();
        }

        context.write(key,new IntWritable(sum));
    }
}

　　[2.3 WCApp]

package hadoop.mr.wc;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


/**
 * Word Count APP
 */
public class WCApp {
    public static void main(String[] args) throws Exception {
        // 初始化配置檔案
        Configuration conf = new Configuration();

        // 僅在本地開發時使用
//        conf.set("fs.defaultFS", "file:///");

        // 通過配置檔案初始化 job
        Job job = Job.getInstance(conf);

        // 設定 job 名稱
        job.setJobName("Word Count");

        // job 入口函式類
        job.setJarByClass(WCApp.class);

        // 設定 mapper 類
        job.setMapperClass(WCMapper.class);

        // 設定 reducer 類
        job.setReducerClass(WCReducer.class);

        // 設定 map 的輸出 K-V 型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 設定 reduce 的輸出 K-V 型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 設定輸入路徑和輸出路徑
//        Path pin = new Path("E:/test/wc/1.txt");
//        Path pout = new Path("E:/test/wc/out");
        Path pin = new Path(args[0]);
        Path pout = new Path(args[1]);
        FileInputFormat.addInputPath(job, pin);
        FileOutputFormat.setOutputPath(job, pout);

        // 執行 job
        job.waitForCompletion(true);
    }
}

[MapReduce_1] 執行 Word Count 示例程式

0. 說明　　MapReduce 實現 Word Count 示意圖 && Word Count 程式碼編寫 1. MapReduce 實現 Word Count 示意圖　　 &

windows下執行mask-rcnn示例程式踩過的坑

環境：win10，keras2.1.6，python3.6，ensorflow1.8-gpu 錯誤一：執行D:\python\jupyter\Mask_RCNN-master\samples目錄下的demo.ipynb檔案，用jupyter notebo

MapReduce 程式執行演示（示例PI程式 wordcount程式）

你說的9000埠應該指的是fs.default.name或fs.defaultFS（新版本）這一配置屬性吧，這個屬性是描述叢集中NameNode結點的URI(包括協議、主機名稱、埠號) 50070其實是在hdfs-site.xml裡面的配置引數dfs.namenode.http-address，

並行作業1：MPI安裝，及示例程式執行

執行MPI程式系統採用vm下ubuntu16.04 一、MPI系統安裝 1.1 安裝環境 (1)作業系統：Ubuntu 16.04.4 （64位）。 (2)g++ 版本：gcc version 5.4.0 1.2 安裝包下載地址及安裝包 (1)下載地址：http

【Spark核心原始碼】Word Count程式的簡單分析

目錄啟動Spark Shell 日誌級別的設定解析word count程式第0步：設定日誌級別（“可選”）第1步：讀取檔案第2步：將每行的內容根據空格進行拆分成單詞第3步：設定每一個單詞的計數為1 第4步：單詞根據Key進行計數值累加聚合第5步：輸出

.NET跨平臺：在CentOS上編譯dnx並執行ASP.NET 5示例程式

在之前的博文中我們在 Ubuntu 上成功編譯出了 dnx ，並且用它成功執行了 ASP.NET 5 示例程式。在這篇博文中我們將 Ubuntu 換成 CentOS。目前 dnx 的編譯需要用到 mono，所以先要安裝 mono，而且最好是用最新的 mono 原始碼進行編譯並安裝。我們實際成功編譯的操

.NET跨平臺：在Ubuntu上用自己編譯的dnx執行ASP.NET 5示例程式

在 Linux Ubuntu 上成功編譯 dnx 之後，會在 artifacts/build/ 資料夾中生成 dnx-coreclr-linux-x64/ 與 dnx-mono/ 這2個資料夾，前者是基於 coreclr 的 dnx ，後者是基於 mono 的 dnx 。這篇博文中我們將使用基於 core

Hadoop安裝配置、執行第一個WordCount示例程式

作業系統ubuntu。本篇目的是在單機模式下執行成功WordCount示例程式。本篇小結安裝步驟，遇到的問題和解決辦法。疑惑點及其思考。 Hadoop是為linux而開發的，所以開發hadoop程式，包括spark最好在linux環境下。目錄如下：一：Hadoop

pyspark學習（一）-- 入門程式word count

1. 學習spark的第一個程式 wordcount 先說下本人的開發環境和工具： win10spark 1.6python 2.7pycharm什麼是word count？單詞計數為什麼第一個程式是它，helloword呢？基本上是學習hadoop的mapreduce

《OpenGL程式設計精髓》光碟示例程式執行環境配置

=============================================================== 【問題】 #include <gl\glaux.h> 這一行缺少檔案，導致編譯不過 =======================

Hadoop MapReduce案例word count本地環境執行時遇到的一些問題

問題一載入不到主類原因：我一開始建立的是Map/Reduce Project, 它會直接去我本地安裝的hadoop裡面尋找相應的jar包。但是由於我一開始將hadoop放在D:\Program Files資料夾下，應為該路徑中間有個空格，所以沒有找到相應的jar包。解

Hadoop AWS Word Count 樣例

執行 export config str oop exp rri interrupt [1] 在AWS裏用Elastic Map Reduce 開一個Cluster然後登陸master node並編譯下面程序：import java.io.IOException; im

c語言簡單實現word count功能

判斷 ref 使用 href .cn nbu ext p s span c語言簡單實現word count功能一：源碼參考參考地址：https://home.cnblogs.com/u/sunbuqiao/ 二：閱讀

Mac下hadoop運行word count的坑

ack world apache 默認轉換成 OS 刪除 .lib logs Mac下hadoop運行word count的坑 Word count體現了Map Reduce的經典思想，是分布式計算中中的hello world。然而博主很幸運地遇到了Mac下特有的問題Mk

Word Count 第二周作業

family lan OS 技術工作 Go AD 多少 mil GitHub地址 GitHub 地址為：https://github.com/Lovegoodstudy/WordCount PSP 表格 PSP2.1 PSP階段預估耗時（分鐘）

spark配置和word-count

pack lib tuple www. sch creat java clust name Spark ------------ 快如閃電集群計算引擎。應用於大規模數據處理快速通用引擎。內存計算。 [Speed] 計

Word Count程序（C語言實現）

地址組成 other 進一步 and 文件遍歷 stand evel oid Word Count 程序 GitHub地址：https://github.com/MansonYe/Word-Count 一、項目簡介 Word Count 是用以統計文本文件的字符數

Word Count作業

解析 pan pro lse str word got asf 結果 Word Count作業一.個人Gitee地址：https://gitee.com/Changyu-Guo 二.項目簡介該項目主要是模擬Linux上面的wc命令，基本要求如下：命令格式： wc.

第一次作業：使用java實現word count

proc ref 存儲 num idt command 一個 stat n) github項目地址： https://github.com/changrui520/homework 作業要求：可執行程序命名為：wc.exe。該程序處理用戶需求的模式為：wc.exe

word count

代碼 tail 文件的單詞數以及第一次部分人才使用碼雲地址：https://gitee.com/a-heart/WC 思路：最先看到題目的第一感覺還是很難的，但是後面發現這個涉及的得型不是很多，最主要的地方就是要掌握文件的操作。知

[MapReduce_1] 執行 Word Count 示例程式

0. 說明

1. MapReduce 實現 Word Count 示意圖

2. Word Count 程式碼編寫

[2.1 WCMapper]

[2.2 WCReducer]

[2.3 WCApp]

相關推薦

　　[2.1 WCMapper]

　　[2.2 WCReducer]

　　[2.3 WCApp]