mapreduce 詞頻統計

阿新 • • 發佈：2018-04-10

大數據 hadoop

基於八股文的形式編寫mapreduce 程序
打包jar 與測試運行處理
wordcount 為例理解mapreduce 並行計算原理

基於八股文的形式編寫mapreduce 程序

mapreduce java 代碼

package org.apache.hadoop.studyhdfs.mapredce;
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 
 * @author zhangyy
 *
 */
public class WordCountMapReduce extends Configured implements Tool{

    // step 1: mapper class
    /**
     * public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
     */
    public static class WordCountMapper extends //
        Mapper<LongWritable,Text,Text,IntWritable>{
        // map output value
        private final static IntWritable mapOutputValue = new IntWritable(1) ;
        // map output key
        private Text mapOutputKey = new Text();

        @Override
        public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            System.out.println("map-input-key =" + key + " : map-input-value = " + value);

            // line value
            String lineValue = value.toString();

            // split
            String[] strs = lineValue.split(" ") ;

            // iterator
            for(String str: strs){
                // set map output key 
                mapOutputKey.set(str);

                // output
                context.write(mapOutputKey, mapOutputValue);
            }
        }
    }

    // step 2: reducer class
    /**
     * public class Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT>
     */
    public static class WordCountReducer extends //
        Reducer<Text,IntWritable,Text,IntWritable>{

        private IntWritable outputValue = new IntWritable() ;

        @Override
        public void reduce(Text key, Iterable<IntWritable> values,
                Context context)
                throws IOException, InterruptedException {
            // temp: sum
            int sum = 0 ;

            // iterator
            for(IntWritable value: values){
                // total
                sum += value.get() ;
            }
            // set output value
            outputValue.set(sum);

            // output
            context.write(key, outputValue);
        }

    }

    // step 3: driver
    public int run(String[] args) throws Exception {
        // 1: get configuration
//      Configuration configuration = new Configuration();
        Configuration configuration = super.getConf() ;

        // 2: create job
        Job job = Job.getInstance(//
            configuration, //
            this.getClass().getSimpleName()//
        );
        job.setJarByClass(this.getClass());

        // 3: set job
        // input  -> map  -> reduce -> output
        // 3.1: input
        Path inPath = new Path(args[0]) ;
        FileInputFormat.addInputPath(job, inPath);

        // 3.2: mapper
        job.setMapperClass(WordCountMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

// ===========================Shuffle======================================     
        // 1) partitioner
//      job.setPartitionerClass(cls);
        // 2) sort
//      job.setSortComparatorClass(cls);
        // 3) combine
        job.setCombinerClass(WordCountReducer.class);
        // 4) compress
            // set by configuration
        // 5) group
//      job.setGroupingComparatorClass(cls);
// ===========================Shuffle======================================     

        // 3.3: reducer
        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // set reducer number
//      job.setNumReduceTasks(3);

        // 3.4: output
        Path outPath = new Path(args[1]);
        FileOutputFormat.setOutputPath(job, outPath);

        // 4: submit job 
        boolean isSuccess = job.waitForCompletion(true);

        return isSuccess ? 0 : 1 ;
    }

    public static void main(String[] args) throws Exception {

        // run job
//      int status = new WordCountMapReduce().run(args);

        // 1: get configuration
        Configuration configuration = new Configuration();

// ===============================Compress===================================
//      configuration.set("mapreduce.map.output.compress", "true");
//      configuration.set(name, value);
// ===============================Compress===================================

        int status = ToolRunner.run(//
            configuration, //
            new WordCountMapReduce(), //
            args
        ) ;

        // exit program
        System.exit(status);
    }

}

打包成為jar 包

技術分享圖片

運行jar 包輸出結果

技術分享圖片

mapreduce 詞頻統計

大數據 hadoop 基於八股文的形式編寫mapreduce 程序打包jar 與測試運行處理 wordcount 為例理解mapreduce 並行計算原理基於八股文的形式編寫mapreduce 程序 mapreduce java 代碼 package org.apache.hadoop.

MapReduce——詞頻統計

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; i

MapReduce--帶有詞頻統計的倒排索引演算法

倒排索引：根據單詞來查詢文件實現：單詞1 文件1：次數，文件2：次數，文件5：次數單詞1 平均次數單詞2 文件3：次數，文件6：次數單詞2 平均次數 Mapper: 輸出： key: term- ->docid value: 1 public static cla

基於MapReduce的詞頻統計程式WordCountApp(一)

詞頻統計案例分析： wordcount: 統計檔案中每個單詞出現的次數需求：求wc 檔案內容小：shell(wc_shell.sh) 使用IDEA+Maven開發wc： 1）開發 2）編譯：mv

MapReduce程式設計：詞頻統計

首先在專案的src檔案中需要加入以下檔案，log4j的內容為： log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout

perl 大文本詞頻統計.

pre bst geb don nbsp length $2 詞頻統計 int 思想是設置子文本最大長度,然後分割成多個子文本, 最後合並. 詞頻則是當前位置字和前一位置的字的組合進入hash. 代碼如下 use Encode; ##編碼解碼 system("ti

Java8新特性——lambda表達式.（案例：詞頻統計）

word ont lose args list lower cep stream spa 需求：讀入一個文本文件，確定所有單詞的使用頻率並從高到低排序，打印出所有單詞及其頻率的排序列表先用傳統方法解： 1 package cn._1.wordfrequency; 2

hive進行詞頻統計

exp 通過 zookeeper oracle bin 文件 create order lec 統計文件信息： $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc

字符串操作練習：星座、凱撒密碼、99乘法表、詞頻統計預處理

千分位不足 last 乘法表控制 ise 精度 end for 實例：輸出12個星座符號，以反斜線分隔。 for i in range(12): print(chr(9800+i),end="/") 愷撒密碼的編碼 sr1="abcdefghij

軟件工程第二次作業詞頻統計

mage std pen not pytho replace mon 知識 ljust 1.項目名稱：詞頻統計 2.代碼地址：https://coding.net/u/songyuu/p/python_wf/git 3.代碼如下： 1 import os 2 impo

字符串操作練習：星座、凱撒密碼、99乘法表、詞頻統計預處

姓名 orm 99乘法表不足 log inpu 輸入 print 實例 1 實例：輸出12個星座符號，以反斜線分隔。 >>>for i in range (12): >>>print(chr(9800+i),end=" ") 2

組合數據類型練習，英文詞頻統計實例

news forever .com 分隔 ima hat http war nis 實例：由字符串創建一個作業評分列表，做增刪改查詢統計遍歷操作。例如，查詢第一個3分的下標統計1分的同學有多少個，3分的同學有多少個 >>> ap=list("02

英文詞頻統計預備，組合數據類型練習

life ril 對象 1-1 com please moment ppi hat 1.實例: 下載一首英文的歌詞或文章，將所有,.？！等替換為空格，將所有大寫轉換為小寫，統計某幾個單詞出現的次數，分隔出一個一個的單詞。 lyrics=‘‘‘Waking up I see

組合數據類型和英文詞頻統計實例

think laughing clas self why rms day index oom 1.列表實例：由字符串創建一個作業評分列表，做增刪改查詢統計遍歷操作。例如，查詢第一個3分的下標，統計1分的同學有多少個，3分的同學有多少個等。 >>> ls

組合數據類型練習，英文詞頻統計實例上

元組 one lam 主鍵必須分析字符串 logs with spa 1/字典實例：建立學生學號成績字典，做增刪改查遍歷操作。 d={‘10‘:80,‘11‘:87,‘13‘:76,‘13‘:50,‘14‘:89,‘15‘:96,‘16‘:89,‘17‘:100}

組合數據練習，英語詞頻統計實例上

games 1-1 合數 ice 語句 rime ict 項目 tuple 1 >>> d={‘01‘:95,‘02‘:92,‘03‘:86,‘04‘:70}>>> print(d){‘01‘: 95, ‘02‘: 92, ‘03‘: 8

中文詞頻統計及詞雲制作

print word 詞雲出現不能分享 item 希望技術 1.中軟國際華南區技術總監曾老師還會來上兩次課，同學們希望曾老師講些什麽內容？（認真想一想回答）希望能講一些大數據相關內容，深入了解一下。 2.中文分詞下載一中文長篇小說，並轉換成UTF-8編

課堂練習（詞頻統計）

gen load ping generate int cut 就業 matplot prefix 希望曾老師講的內容沒有什麽意見，希望可以講一下大數據的就業前景，就業的薪資待遇。小說詞頻統計import jieba book = "F:\最強升級系統.txt" t

9-25提出問題和中文詞頻統計

工作 ever 哥哥 mat 小說他也 blog 只恐 {} 1.中軟國際華南區技術總監曾老師還會來上兩次課。希望老師能夠講一下現在的網絡發展和現狀，感覺計算機專業是最受歡迎的，但是憑借著每年不斷畢業（增多）的人數，我們憑借著什麽來跟好比如我們是網工專業，跟學軟件班的同

+中文詞頻統計及詞雲制作9-25

輸出很難 imp range 著名 python cloud 基本 jieba 1.我希望老師能講一點python在數據挖掘，數據分析領域的應用，最好能舉些實例，或者說帶我們實際操作一波。 2.中文分詞下載一中文長篇小說，並轉換成UTF-8編碼使用

mapreduce 詞頻統計

基於八股文的形式編寫mapreduce 程序

打包成為jar 包

運行jar 包輸出結果

相關推薦