MapReduce程式設計：單詞去重

阿新 • • 發佈：2019-01-09

程式設計實現單詞去重要用到NullWritable型別。

NullWritable：

NullWritable 是一種特殊的Writable 型別，由於它的序列化是零長度的，所以沒有位元組被寫入流或從流中讀出，可以用作佔位符。比如，在MapReduce 中，在不需要這個位置的時候，鍵或值能夠被宣告為NullWritable，從而有效儲存一個不變的空值。

通過呼叫NullWritable.get() 方法來檢索。

單詞去重我們最後要輸出的形式是<單詞>，所以值可以宣告為NullWritable。

程式碼如下：

 1 package org.apache.hadoop.examples;
 2      
 3     import java.io.IOException;
 4     import java.util.Iterator;
 5     import java.util.StringTokenizer;
 6     import org.apache.hadoop.conf.Configuration;
 7     import org.apache.hadoop.fs.Path;
 8     import org.apache.hadoop.io.IntWritable;
 
 9     import org.apache.hadoop.io.NullWritable;
10     import org.apache.hadoop.io.Text;
11     import org.apache.hadoop.mapreduce.Job;
12     import org.apache.hadoop.mapreduce.Mapper;
13     import org.apache.hadoop.mapreduce.Reducer;
14     import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 
15     import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
16      
17     public class DistinctWord{
18         public DistinctWord() {
19         }
20      
21         public static void main(String[] args) throws Exception {
22             Configuration conf = new Configuration();
23             
24             //String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
25             String[] otherArgs = new String[]{"input","output"};  //設定輸入和輸出
26             if(otherArgs.length < 2) {
27                 System.err.println("Usage: wordcount <in> [<in>...] <out>");
28                 System.exit(2);
29             }
30      
31             Job job = Job.getInstance(conf, "distinct word");
32             
33             job.setJarByClass(DistinctWord.class);  //設定jar包所在路徑
34             
35             //指定Mapper和Reducer類
36             job.setMapperClass(DistinctWord.DistinctWordMapper.class);  
37             job.setCombinerClass(DistinctWord.DistinctWordReducer.class);
38             job.setReducerClass(DistinctWord.DistinctWordReducer.class);
39             
40             //指定MapTask的輸出型別
41             job.setMapOutputKeyClass(Text.class);
42             job.setMapOutputValueClass(NullWritable.class);
43             
44             //指定ReduceTask的輸出型別
45             job.setOutputKeyClass(Text.class);
46             job.setOutputValueClass(NullWritable.class);
47      
48             //指定資料輸入路徑
49             for(int i = 0; i < otherArgs.length - 1; ++i) {
50                 FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
51             }
52             
53             //指定資料輸出路徑
54             FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
55             
56             //提交任務
57             System.exit(job.waitForCompletion(true)?0:1);
58         }
59      
60       
61         //輸出型別定義為NullWritable
62         public static class DistinctWordMapper extends Mapper<Object, Text, Text, NullWritable> {
63             private Text word = new Text();
64      
65             public DistinctWordMapper() {
66             }
67      
68             public void map(Object key, Text value, Mapper<Object, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException {
69                 StringTokenizer itr = new StringTokenizer(value.toString());  //分詞器
70      
71                 while(itr.hasMoreTokens()) {
72                     this.word.set(itr.nextToken());
73                     context.write(this.word, NullWritable.get());
74                 }
75      
76             }
77         }
78         
79         
80         
81         public static class DistinctWordReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
82             
83             public DistinctWordReducer() {
84             }
85             
86             //reduce方法每呼叫一次，就接收到一組相同的單詞，所以直接輸出一次key即可。
87             public void reduce(Text key, Iterable<NullWritable> values, Reducer<Text, NullWritable, Text, NullWritable>.Context context) throws IOException, InterruptedException {
88                 context.write(key, NullWritable.get());
89             }
90         }
91         
92         
93     }

MapReduce程式設計：單詞去重

程式設計實現單詞去重要用到NullWritable型別。 NullWritable： NullWritable 是一種特殊的Writable 型別，由於它的序列化是零長度的，所以沒有位元組被寫入流或從流中讀出，可以用作佔位符。比如，在MapReduce 中，在

大資料_Shuffle、MapReduce程式設計案例(資料去重、多表查詢、倒排索引、使用單元測試)

一、什麼是Shuffle（洗牌） ----> MapReduce核心 1、序列化 2、排序 3、分割槽 4、合併二、MapReduce程式設計案例 ------> 掌握方法：如何開發一個程式 1、資料

spark運算元：distinct去重的原理

1、Distinct是transformation運算元，不是action運算元。 2、Distinct的去重，是當key與value都一樣的時候，會被當做重複的資料。也就是說，有多條key和value都相同的資料在執行完distincc

JavaStudy——0068：整數去重

總時間限制: 1000ms 記憶體限制: 65536kB 描述給定含有n個整數的序列，要求對這個序列進行去重操作。所謂去重，是指對這個序列中每個重複出現的數，只保留該數第一次出現的位置，刪除其餘位置。輸入輸入包含兩行：第一行包含一個正整數n（1 <= n <= 2

邊學邊敲邊記之爬蟲系列(三)：url去重策略及實現

一、前言今天給大家分享的是，Python爬蟲裡url去重策略及實現。二、url去重及策略簡介 1.url去重從字面上理解，url去重即去除重複的url,在爬蟲中就是去除已經爬取過的url,避免重複爬取，既影響爬蟲效率，又產生冗

使用Hadoop的MapReduce來實現資料去重

最近在系統學習大資料知識，學了沒有記錄過幾天又忘光了，所以把學習內容記錄下來，方便以後檢視 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.

Java 8新特性：字串去重

本文首發與InfoQ。 8月19日，Oracle釋出了JDK 8u20，JDK 8u20包含很多新特性，比如Java編譯器更新、支援在執行時通過API來修改MinHeapFreeRatio和MaxHeapFreeRatio引數、新的GC調優指南文件。不過在眾多新特性中，最令人期待的還屬字串去重

基礎練習：1117：整數去重

1117：整數去重【題目描述】給定含有n個整數的序列，要求對這個序列進行去重操作。所謂去重，是指對這個序列中每個重複出現的數，只保留該數第一次出現的位置，刪除其餘位置。【輸入】輸入包含兩行：第一行包含一個正整數n（1 ≤ n ≤ 20000），表示第二行序列中數字的個數；

mapreduce程式設計：求平均值

求平均值的程式： package my.hadoopstudy; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apa

網路爬蟲：URL去重策略之布隆過濾器(BloomFilter)的使用

前言：最近被網路爬蟲中的去重策略所困擾。使用一些其他的“理想”的去重策略，不過在執行過程中總是會不太聽話。不過當我發現了BloomFilter這個東西的時候，的確，這裡是我目前找到的最靠譜的一種方法。如果，你說URL去重嘛，有什麼難的。那麼你可

MapReduce程式設計：詞頻統計

首先在專案的src檔案中需要加入以下檔案，log4j的內容為： log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout

【MapReduce例項】資料去重

一、例項描述資料去重是利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問等這些看似龐大的任務都會涉及資料去重。比如，輸入檔案 file1.txt，其內容如下： 2017-12-9 a 2017-12-10 b

OpenJudge百鍊習題解答（C++）--題4085：陣列去重排序

題：總時間限制: 1000ms 記憶體限制: 1000kB 描述小吉是銀行的會計師，在處理銀行帳目的時候，遇到了一些問題。有一系列整數，其中含有重複的整數，需要去掉重複後，排序輸出，你能幫助小

Hadoop閱讀筆記（二）——利用MapReduce求平均數和去重

前言：聖誕節來了，我怎麼能虛度光陰呢？！依稀記得，那一年，大家互贈賀卡，短短几行字，字字融化在心裡；那一年，大家在水果市場，尋找那些最能代表自己心意的蘋果香蕉梨，摸著冰冷的水果外皮，內心早已滾燙。這一年……我在部落格園-_-#，希望用dt的程式碼燃燒腦細胞，溫暖小心窩。上篇《Hadoop閱讀筆記（

Hadoop—MapReduce練習（資料去重、資料排序、平均成績、倒排索引）

1. wordcount程式先以簡單的wordcount為例。 Mapper： package cn.nuc.hadoop.mapreduce.wordcount; import java.io.IOException; import org.apache.com

美圖2018校招前端筆試程式設計題陣列去重

題目只能記個大概了，裡面比較重要的就是陣列去重重點：用空間換取時間，一層迴圈實現了陣列的去重，時間複雜度o(n)。 1. 先對arr_copy排序（注意啊arr_copy是有序陣列了） 2.

java面試題：陣列去重

面試中遇到一道筆試題，寫一個數組去重的方法。方法一我們可以建立一個空的List，遍歷陣列，依次將陣列中的值傳入L

面試官在“逗”你係列：陣列去重你會幾種呀？

## 前言陣列去重是一個老生常談的話題，也是前端童鞋在面試時的一道高頻題。本文將深入的探索陣列去重的原理及實現，為各位小夥伴提供```多種```可以```反手“調戲”```面試官的解決方案。 > 話不多說，上去就來一梭子... ## 陣列去重核心原理 > 價值100W的核心原理上來就給你了.

20：單詞及字母去重排序案例

ssi 企業 pre 處理 provides for span ack uid 用shell處理以下內容 1、按單詞出現頻率降序排序！ 2、按字母出現頻率降序排序！ the squid project provides a number ofresources to ass

mapreduce學習筆記二：去重實驗

bound pac except 計算 throws 問題多少 tasks tostring 實驗原理 “數據去重”主要是為了掌握和利用並行化思想來對數據進行有意義的篩選。統計大數據集上的數據種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都

MapReduce程式設計：單詞去重

相關推薦