在WordCount基礎上改進，實現以詞頻為鍵值，並按詞頻降序排列

阿新 • • 發佈：2019-02-11

思路：

1、任務一：與WordCount.v1.0相同，但將處理結果以二進位制形式儲存到臨時目錄中，作為第二次MapReduce任務的輸入目錄
2、任務二：利用Hadoop提供的InverseMapper實現key與value位置互換，自定義一個IntWritableDecreasingComparator類，用於任務二的setSortComparatorClass( )，實現詞頻降序排列。

原始碼：


public class WordCount2 {

    public static class TokenizerMapper extends Mapper<Object 
, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while 
 (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws 
 IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    /**
     * 為實現倒序排序而寫
     *
     */
    private static class IntWritableDecreasingComparator extends IntWritable.Comparator {

        @Override
        public int compare(WritableComparable a, WritableComparable b) {
            // TODO Auto-generated method stub
            return -super.compare(a, b);
        }

        @Override
        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
            // TODO Auto-generated method stub
            return -super.compare(b1, s1, l1, b2, s2, l2);
        }

    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        // validate the number of the args
        if (otherArgs.length != 2) {
            System.err.println("Usage: wordcount <in> <out>");
            System.exit(2);
        }
        // 定義一個臨時目錄
        Path tempDir = new Path("wordcount-temp-" + Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));

        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount2.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, tempDir);
        /*
         * 先將詞頻統計任務的輸出結果寫到臨時目錄中，下一個排序任務以臨時目錄為輸入目錄，此目錄最後在HDFS中尚未出現
         * 
         */

        job.setOutputFormatClass(org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat.class);
        /*
         * SequenceFileOutputFormat為常用的OutputFormat類之一，寫適合後續MapReduce任務讀取的二進位制檔案（
         * 如果不進行setOutputFormatClass，那麼預設OutputFormat為TextOutputFormat，寫為文字行的形式）
         * 
         */
        if (job.waitForCompletion(true))
        // 此if語句表明，只有當job任務成功執行完成以後才開始sortJob，引數true表明列印verbose資訊
        {
            Job sortJob = Job.getInstance(conf, "sort");
            /*
             * 在sortJob中我們並不指定Reduce類，因為不需要，Hadoop會使用預設的IdentityReducer類，
             * 將中間結果原樣輸出
             */
            sortJob.setJarByClass(WordCount2.class);
            FileInputFormat.addInputPath(sortJob, tempDir);
            sortJob.setInputFormatClass(org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat.class);
            sortJob.setMapperClass(org.apache.hadoop.mapreduce.lib.map.InverseMapper.class);
            // InverseMapper由hadoop庫提供，作用是實現map()之後的資料對的key和value交換

            sortJob.setNumReduceTasks(1);
            // 將Reducer的個數限定為1，最終輸出的結果檔案就是一個

            FileOutputFormat.setOutputPath(sortJob, new Path(otherArgs[1]));
            sortJob.setOutputKeyClass(IntWritable.class);
            sortJob.setOutputValueClass(Text.class);
            sortJob.setSortComparatorClass(IntWritableDecreasingComparator.class);
            /*
             * Hadoop預設對IntWritable按升序排序，而我們需要的是按降序排列。
             * 因此我們實現了一個IntWritableDecreasingCompatator類，並指定使用這個自定義的Comparator類，
             * 對輸出結果中的key（詞頻）進行排序
             */
            System.exit(sortJob.waitForCompletion(true) ? 0 : 1);

        }
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

在WordCount基礎上改進，實現以詞頻為鍵值，並按詞頻降序排列

思路： 1、任務一：與WordCount.v1.0相同，但將處理結果以二進位制形式儲存到臨時目錄中，作為第二次MapReduce任務的輸入目錄 2、任務二：利用Hadoop提供的InverseMapper實現key與value位置互換，自定義一個IntWri

查詢CS系的學生學號、姓名、年齡，並按年齡降序排列。

select Sno,Sname,Sage from Student--從學生表中查詢學號、姓名、年齡 where Sdept='CS'--系名為CS ORDER by Sage DESC--根據年齡降序

python字串：索引值以 0 為開始值，-1 為從末尾的開始位置；值和位置的區別哦

String（字串）Python中的字串用單引號 ' 或雙引號 " 括起來，同時使用反斜槓 \ 轉義特殊字元。字串的擷取的語法格式如下：變數[頭下標:尾下標]索引值以 0 為開始值，-1 為從末尾的開始位置。[一個是值，一個是位置。看圖。所以str = 'Runoob' print (str[0:-1

python字符串和List：索引值以 0 為開始值，-1 為從末尾的開始位置；值和位置的區別哦

重復 run test 嵌套 cto ESS 列表容易 pro String（字符串）Python中的字符串用單引號 ‘ 或雙引號 " 括起來，同時使用反斜杠 \ 轉義特殊字符。字符串的截取的語法格式如下：變量[頭下標:尾下標]索引值以 0 為開始值，-1

PHP中怎樣讓數組以字母為鍵值來遞增

div i++ log pri print ray blog highlight 數組 //小寫字母 $key = 97; $arr = array(); for($i=1;$i<=26;$i++){ $arr[chr($key)] = $i; $k

根據經緯度在地圖上新增標記，實現登陸使用者分佈地理位置，顯示使用者資訊

實現登陸使用者分佈地理位置標註，可以顯示使用者資訊直接上乾貨（整個html網頁） <!DOCTYPE html> <html xmlns:th="http://www.thymeleaf.org"> <head> <title&g

武田完成收購夏爾，成為以價值觀為基礎的研發驅動型跨國生物製藥翹楚

從公佈交易到完成交易歷時8個月強大的股東支援，獲得武田(89.1%)和夏爾(99.8%)的高票批准整合計劃順利進行中日本大阪 -- (美國商業資訊) -- 武田藥品工業株式會社(TOKYO:4502)(NYSE:TAK)（“武田”）今天宣佈完成

uc/os-II的記憶體改進與實現TLSF演算法的詳解，移植實現（二）

上一節講到了TLSF的資料結構，下面繼續哈。 TLSF用兩個層次的分類對不同尺寸的記憶體塊進行分類。第一層次的類別目錄為2n，n為4，5，……，31的整數，稱為FLI（First-level Segregated Fit）。每一個FLI類別又根據第二層的SLI細分為2SLI

在Android Studio上使用GSON+VOLLEY，秒處理網路資料成集合。感受框架的力量。搭配RecyclerView和SwipeRefreshLayout，實現底端載入更多，下拉重新整理。

【致謝，引用，宣告，前言】關於GSON和VOLLEY，我百度了很多資料，個人感覺有兩篇部落格介紹的特別好，附上鍊接咯: GSON: http://blog.csdn.net/lk_blog/article/details/7685169 VOLLEY:http://

react-native如何將UI設計稿上的原型的大小轉換為開發大小，還能實現各種螢幕自適應

原型設計稿：輸入框高度：150；寬頻：900；如何將原型上px單位轉為react-native的dp單位？ 1、原型寬度/裝置dp寬度 = px和dp的比例； 2、原型寬度可以通過ps獲取到：1080； 3、裝置的dp寬度 dp;

用大寫字母輸入 Linux 命令，實現以 sudo 使用者許可權執行

我們知道，一些 Linux 命令是要通過 sudo 許可權才能執行的，這需要我們每次使用這些命令時在前面加一個 sudo ，十分繁瑣。今天給大家介紹一個好用的工具 SUDO ，它只需要我們用大寫字母鍵入 Linux 命令，然後它就會自動地以 sudo 許可權執行，非常方便不是嗎？安裝 SUDO 首先，使

搞清Image加載事件(onload)、加載狀態(complete)後，實現圖片的本地預覽，並自適應於父元素內

斷圖 idt ont election href this 出現 alpha ole onload與complete介紹 complete只是HTMLImageElement對象的一個屬性，可以判斷圖片加載完成，不管圖片是不是有緩存；而onload則是這個Image對象的

白虎大廳程序搭建還未開始，就以其滿滿的看點，吸引了社會各界的目光

最新下拉第四次核心 rim 國外 sta dvr 涵蓋【編者按】CES 2018 還未開始，就以其滿滿的看點，吸引了社會各界的目光。白虎大廳程序搭建(h5.hxforum.com)企鵝2952777280首先是谷歌用霸氣的廣告“Hey, Google”包下拉斯維加斯

利用cookie，實現刷新頁面跳轉，左側菜單點擊後狀態保持不變。

coo spl 失效不變 find sco a標簽左側菜單 cookie 是一個後臺關系系統，後臺是phyton，後臺把左側菜單都是利用a標簽進行跳轉，導致菜單點擊狀態在頁面刷新後失效，用戶體驗不好，被要求改掉。查了一些資料。利用cookie終於搞定了這個大問題。主要

通過抓包，實現Python模擬登陸各網站，原理分析！

瀏覽器中 cda class 登陸驗證查詢圖片自動化 cap 一、教程簡介 1.1 基本介紹通過分析登陸流程並使用 Python 實現模擬登陸到一個實驗提供的網站，在實驗過程中將學習並實踐 Python 的網絡編程，Python 實現模擬登陸的方法，使

Python3基礎 dict get 在查詢不存在的鍵時，返回指定的內容

ubuntu ocs 理解初心 git 哲學 print lang finish ? python : 3.7.0 OS : Ubuntu 18.04.1 LTS

linux正則表達式，（以grep為例）

ant per egrep 大小寫則表達式 spa 表示中括號第四章第一章基礎正則表達式^word 匹配以word開頭的內容word$ 匹配以我word結尾的內容^$ 表示空行. 代表有且只代表任意一個字符\ 轉義符號，例如. 就只代表點本身，讓有著特殊身份意義

python操作資料庫，實現使用者名稱、密碼登入資料庫，首次登入自行設定密碼，並返回工資表明細。

python操作資料庫，實現使用者名稱、密碼登入資料庫，首次登入自行設定密碼，並返回工資表明細。 1 #!/usr/bin/env python3 2 # -*- coding: utf-8 -*- 3 4 # 匯入依賴包 5 import psycopg2 6 7 print("營

CF E. Vasya and a Tree】 dfs+樹狀陣列（給你一棵n個節點的樹，每個點有一個權值，初始全為0，m次操作，每次三個數(v, d, x)表示只考慮以v為根的子樹，將所有與v點距離小於等於d的點權值全部加上x，求所有操作完畢後，所有節點的值）

題意：給你一棵n個節點的樹，每個點有一個權值，初始全為0，m次操作，每次三個數(v, d, x)表示只考慮以v為根的子樹，將所有與v點距離小於等於d的點權值全部加上x，求所有操作完畢後，所有節點的值首先要明確兩件事情性質1.每個人的操作只會影響到他的子孫(包括自己) 性質1.每個人的操

截拳道_以無法為有法，以無限為有限

Using no way as way, having no limitation as limitation. 將所學的東西，自然而然的使出來，不要侷限於繁文縟節；做人做事，用最有效、最實用的辦法去做。程式設計或是其他，至高境界，無出其右！以無法為有法，大

在WordCount基礎上改進，實現以詞頻為鍵值，並按詞頻降序排列

思路：

原始碼：

相關推薦