hadoop WordCount

阿新 • • 發佈：2019-01-10

1 pom.xml

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>2.7.4</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.7.4</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>2.7.4</version>
    </dependency>
</dependencies>

2 見hadoop自帶原始碼

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import java.io.IOException;
import java.util.StringTokenizer;


public class WordCount {

    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context
        ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer
            extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,
                           Context context
        ) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length < 2) {
            System.err.println("Usage: wordcount <in> [<in>...] <out>");
            System.exit(2);
        }
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        for (int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job,
                new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

mvn package

3 執行

hdfs dfs -mkdir -p /user/data/input

hdfs dfs -mkdir -p /user/data/output

hdfs dfs -ls /user/data/input/

hdfs dfs -put ./file.txt /user/data/input/

hdfs dfs -cat /user/data/input/file.txt

hadoop jar MapRed-1.0-SNAPSHOT.jar WordCount /user/data/input/ /user/data/output

hdfs dfs -cat /user/data/output/part-r-00000

Hadoop wordcount Demon

dir 搭建 out light tails txt bash 運行結果截圖 -m 　　搭建完成Hadoop後，第一個demon,wordcount。此處參考：http://blog.csdn.net/wangjia55/article/details/53160679 　

Hadoop WordCount單詞計數原理

clas oop 圖片 tput 進行打包 red div src 計算文件中出現每個單詞的頻數輸入結果按照字母順序進行排序編寫WordCount.java 包含Mapper類和Reducer類編譯WordCount.java javac -classp

Hadoop wordcount 小例項

step one: 啟動hadoop叢集；進入hadoop，為防止進入錯誤，可以先：cd / 進入根目錄後，然後 cd ,就會進去hadoop下面建立一個檔案，或者rz上傳一些檔案， touch test.guyong.cn vi test.guyong.cn //然

hadoop-WordCount單詞統計

/** * *Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> * *輸入 key 文字中偏移量 *value 文字中的內容 * *輸出 key 是文字的內容 * *value 是單詞出現

Linux下執行Hadoop WordCount.jar

Linux執行 Hadoop WordCount ubuntu 終端進入快捷鍵：ctrl + Alt +t hadoop啟動命令：start-all.sh 正常執行效果如下： [email protected]:~$ start-all.sh Warning

hadoop WordCount

1 pom.xml <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>

Hadoop-wordcount，合併多個part-*檔案

執行WordCount程式之後，每個reduce會產生一個part-*檔案，如下圖所示：使用hadoop fs -getmerge /data/output/ /data/result.txt

hadoop wordcount 詳解

mapreducehadoop中的分散式運算程式設計框架，只要按照其程式設計規範，只需要編寫少量的業務邏輯程式碼即可實現一個強大的海量資料併發處理程式 Demo開發——wordcount 1、需求從大量（比如T級別）文字檔案中，統計出每一個單詞出現的總次數 2、map

Hadoop 0.20.2+Ubuntu13.04配置和WordCount測試

password trac 讓我說明 core jvm -m launchpad 1.7 事實上這篇博客寫的有些晚了。之前做過一些總結後來學校的事給忘了，這幾天想又一次拿來玩玩發現有的東西記不住了。翻博客發現居然沒有。好吧，所以趕緊寫一份留著自己用吧。這東西網上有非常

debian下 Hadoop 1.0.4 集群配置及運行WordCount

速度虛擬裏的否則 ado 修改安裝包 name 節點說明：我用的是壓縮包安裝，不是安裝包官網安裝說明：http://hadoop.apache.org/docs/r1.1.2/cluster_setup.html，繁冗，看的眼花...大部分人應該都不是按照這個來

Hadoop之WordCount詳解

ride 開始 zookeepe ati 程序 form 數組 -c 狀態花了好長時間查找資料理解、學習、總結這應該是一篇比較全面的MapReduce之WordCount文章了耐心看下去 1，創建本地文件在hadoop-2.6.0文件夾下創建一個文件夾data，在其

Hadoop Mapreduce之WordCount實現

註意 com split gin 繼承 [] leo ring exce 1.新建一個WCMapper繼承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritab

Hadoop MapReduce 官方教程 -- WordCount示例

get pre red oop hadoop apache tor ria pac Hadoop MapReduce 官方教程 -- WordCount示例： http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.h

Hadoop：WordCount分析

詳細 tex string 實現 col 一個 mapper 信息 job 相關代碼： 1 package com.hadoop; 2 3 import org.apache.hadoop.conf.Configuration; 4 import or

eclipse集成使用Hadoop插件運行WordCount程序

自帶變量 dir span jar 更改 director sta 條件雲地址:https://pan.baidu.com/s/1CmBAJMdcwCxLGuCwSTcJNw 密碼:qocw 前提條件:啟動集群，配置好JDK和hadoop環境變量有必要刪除虛擬機

Hadoop下WordCount程序

有一個技術分享 hadoop 自己 wordcount examples pretty 準備工作 number 一、前言在之前我們已經在 CenOS6.5 下搭建好了 Hadoop2.x 的開發環境。既然環境已經搭建好了，那麽現在我們就應該來幹點正事嘛！比如來一個Ha

在Hadoop上用Python實現WordCount

tdi fff tool 目錄獲取 style 要求 ren pan 在hadoop上用Python實現WordCount 一、簡單說明　　本例中我們用Python寫一個簡單的運行在Hadoop上的MapReduce程序，即WordCount（讀取文本文件並統計單詞的詞

hadoop 開發---WordCount

mapr xsd job 不用 site cti err extends mvn 參考http://hadoop.apache.org/docs/r2.7.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapR

hadoop---運行自帶的MapReduce WordCount程序

share inf .com 保存 mapred 技術分享 ima 上傳 img MapReduce入門程序：WordCount hadoop的share目錄下創建一個HDFS數據目錄，用於保存mapreduce的輸入文件創建一個目錄，用於保存m

hadoop案例測試——pi值、wordcount函式，hadoop不支援本地庫問題

前言：本文案例測試所需環境都是在前面幾篇blog的基礎上進行的，具體內容請檢視： http://blog.csdn.net/u012829611/article/details/77678609 http://blog.csdn.net/u012829611/article/deta

hadoop WordCount

相關推薦