Hadoop:mapreduce程式碼統計文字單詞

阿新 • • 發佈：2022-05-07

首先編寫wordcountMap類

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMap extends Mapper<LongWritable, Text,Text, IntWritable> {
     
/*
    * LongWritable:偏移量,表示該行在檔案中的位置，而不是行號
    * Text map階段的輸入資料，一行文字資訊，字串型別String
    * Text map階段的資料字串型別String
    * IntWritable map階段輸出的value型別，對應Java中的int型別，表示行號
    * */

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
         
//讀取每行文字
        String line = value.toString();
        //splite拆分
        String[] words= line.split(" ");
        //取出每個單詞
        for (String word:words){
            //將單詞轉換為Text型別的
            Text wordText = new Text(word);
            //將1轉變為IntWritablele
            IntWritable outValue = new IntWritable(1);
             
//寫出單詞跟對應1
            context.write(wordText,outValue);
        }
    }
}

再編寫wordcountreduce類

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReduce extends Reducer<Text, IntWritable,Text,IntWritable> {
    /*
    * Text:輸入的字串型別，序列化
    * IntWritable:輸入一串1，序列化
    * Text：輸出的字串型別，序列化
    * IntWritable：輸出的求和陣列，序列化
    * */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        /*
        * key:輸入的單詞的名字
        * values:輸入一串1
        * context:輸入的工具
        * */
        int sum=0;
        for(IntWritable number:values){
            sum+=number.get();
        }
        context.write(key,new IntWritable(sum));
    }
}

最後編寫wordcount類將前面的兩個類結合起來

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {
    public static void main(String[] args) throws Exception {
        // 建立本次mr程式的job例項
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        // 指定本次job執行的主類
        job.setJarByClass(WordCount.class);

        // 指定本次job的具體mapper reducer實現類
        job.setMapperClass(WordCountMap.class);
        job.setReducerClass(WordCountReduce.class);

        // 指定本次job map階段的輸出資料型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 指定本次job reduce階段的輸出資料型別 也就是整個mr任務的最終輸出型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 指定本次job待處理資料的目錄 和程式執行完輸出結果存放的目錄
        FileInputFormat.setInputPaths(job, "E:\\Demo\\hadoop\\input\\Wordcount.txt");
        FileOutputFormat.setOutputPath(job, new Path("E:\\Demo\\hadoop\\output"));

        // 提交本次job
        boolean b = job.waitForCompletion(true);

        System.exit(b ? 0 : 1);
    }
}

（需要提前在Wordcount.txt中寫入文字）

Hadoop:mapreduce程式碼統計文字單詞

首先編寫wordcountMap類 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable;

hadoop_統計文字單詞WordCountReduce&WordCount

WordCountReduce.java import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer;

Hadoop_mapreduce統計文字單詞

1、 MapReduce是什麼　　Hadoop MapReduce是一個軟體框架，基於該框架能夠容易地編寫應用程式，這些應用程式能夠執行在由上千個商用機器組成的大叢集上，並以一種可靠的，具有容錯能力的方式並行地處理上TB級別的

Python統計文字詞彙出現次數的例項程式碼

問題描述有時在遇到一個文字需要統計文字內詞彙的次數的時候，可以用一個簡單的python程式來實現。

如何巧用HashMap一行程式碼統計單詞出現次數詳解

前言 JDK是在一直在迭代更新的，很多我們熟悉的類也悄悄的添加了一些新的方法特性。比如我們最常用的HashMap。

統計英文文字單詞出現頻率

題目要求：輸出單個檔案中的前 N 個最常出現的英語單詞。作用：一個用於統計文字檔案中的英語單詞出現頻率的控制檯程式；單詞：以英文字母開頭，由英文字母和字母數字符號組成的字串視為一個單詞。單詞以分隔符分割

linux shell中統計文字中指定單詞出現的次數

linux shell中統計文字中指定單詞出現的次數 1、測試資料，統計 a.txt中e出現的總次數

Hadoop 用Java編寫MapReduce詞頻統計程式並提交到Hadoop叢集執行

一、MapReduce介紹 MapReduce是一個分散式計算框架，可以部署在Hadoop、Spark等大資料平臺上，實現海量資料的平行計算。它採用“分而治之”的思想，將一個計算任務交給叢集中的多臺機器共同完成，之後再彙總成最終結

python tkinter圖形介面程式碼統計工具

本文為大家分享了python tkinter圖形介面程式碼統計工具，供大家參考，具體內容如下

python tkinter圖形介面程式碼統計工具（更新）

本文為大家分享了python tkinter圖形介面程式碼統計工具的更新版，供大家參考，具體內容如下

python實現python程式碼統計器

本文例項為大家分享了python中的程式碼行數統計，供大家參考，具體內容如下

Python實現程式碼統計工具

本文例項為大家分享了Python實現程式碼統計工具的具體程式碼，供大家參考，具體內容如下

python實現程式碼統計程式

本文例項為大家分享了python實現程式碼統計程式的具體程式碼，供大家參考，具體內容如下

微信小程式上傳帖子的例項程式碼(含有文字圖片的微信驗證)

public.js var graceJS = require(\'../../utils/grace.js\'); import { config } from \'../../config.js\' Page({

Hadoop——MapReduce過程詳解

1、MapReduce程式讀取檔案的輸入目錄上存放的相應檔案 2、客戶端在submit（）方法執行之前獲取要處理的資料資訊，根據叢集中的配置形成一個任務分配規劃

去掉HTML程式碼保留文字和圖片

取得HTML中的img /// <summary> /// 取得HTML中所有圖片的 URL。 /// </summary> /// <param name=\"sHtmlText\">HTML程式碼</param>

統計英語單詞的個數c語言

技術標籤：計算機題目 CET-4就要來臨了，不知道大家準備得怎麼樣了？ CET-4一般要求寫一篇英文小作文，字數一般在120字以內，評閱試卷的老師希望準確的知道每篇作文的字數，但是又不想直接數，那樣太累了。英語教

隨堂測試題2：整到崩潰的文字單詞去重

題目：請用C++編寫一個預處理小程式，將輸入一行文字進行預處理，要求根據標點將文字切割成英文單詞（除了字母其他字元均視為標點），每個英文單詞中將大寫字母轉換成小寫字母，並統計出英文單詞的個數（重複出現的單

Task3：論文程式碼統計（3天）

Task3：論文程式碼統計（3天）Link 學習主題：論文程式碼統計（資料統計任務），統計所有論文類別下包含原始碼論文的比例；

layui 普通文字框textarea 統計文字長度以及限制文字長度的方法

技術標籤：layui前端 css部分： .layui-input-block { position: relative; } .word { position: absolute;

Hadoop:mapreduce程式碼統計文字單詞

相關推薦