【hadoop】wordcount例項編寫

阿新 • • 發佈：2019-02-01

mr例項分為兩個階段，一個是map階段，一個是reduce階段，中間用shuff來銜接，我們想執行mapreduce例項，只需要實現map業務和reduce業務邏輯即可。
map實現

//hadoop首先將input輸入的檔案內容split分為多份，每一份的內容用mapper.map來處理，其中Value就是需要處理的文字內容。context是上下文，用作連線和傳遞資料流的工具。
public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        //序列化的整數
        private 
 final IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            //將一段內容分解為一個個的字串單詞
            StringTokenizer itr = new StringTokenizer(value.toString());
            //將一個一個的單詞和對應的數量反饋給context,context接收到之後，經過shuff之後，傳遞給reduce來整合。 

            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

reduce實現

public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new 
 IntWritable();
        //key就是單詞，也就是map中key，IntWritable就是一個個的value組成的列表。
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            //將單詞出現的次數一個個的傳遞過來，然後相加得到結果。
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

提交job

public static void main(String[] args) throws Exception {
        //使用預設配置
        Configuration conf = new Configuration();
        //解析命令列引數
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length < 2) {
            System.out.println("Usage:wordcount");
            System.exit(2);
        }
        //構造一個mr任務
        Job job = Job.getInstance(conf, "word count");
        //設定執行的jar
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        for (int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

最後將程式碼打成jar包，用hadoop jar提交到mapreduce上，hadoop預設是mapreduce框架來執行，但我們可以修改預設配置，將其改為yarn。最終可以在yarn的監控介面展示任務執行的資訊。

【hadoop】wordcount例項編寫

mr例項分為兩個階段，一個是map階段，一個是reduce階段，中間用shuff來銜接，我們想執行mapreduce例項，只需要實現map業務和reduce業務邏輯即可。 map實現 //hadoop首先將input輸入的檔案內容split分為多份，每一份的

【hadoop】本地Eclipse編寫hadoop詞統計程式碼本地測試，打包上傳伺服器測試

環境準備 1、伺服器配置好hadoop2.7.3，詳細配置過程可參考 hadoop2.7.3環境配置 2、本地安裝好Eclipse，並配置好maven 3、本地解壓hadoop-2.7.3，並下載winutils.exe檔案放在自定義目錄下本地Ecli

【Hadoop】Windows 10 在Intellij IEDA本地執行Hadoop MapReduce例項

環境：作業系統：Windows 10 Hadoop版本：2.7.3 Java版本: 1.8 前期準備： 1. 配置hadoop環境。 2. 配置maven環境。 1.下載maven部署包apache-maven-3.5.3-

【Hadoop】HA 場景下訪問 HDFS JAVA API Client

new mes inpu true stream node spa lba main 客戶端需要指定ns名稱，節點配置，ConfiguredFailoverProxyProvider等信息。代碼示例： package cn.itacst.hadoop.hdfs; i

【Hadoop】hiveserver2 不能啟動端口 10000 開啟服務的相關經驗總結

error: pro mon 進行 org multipl html pen exp 轉載來自http://blog.csdn.net/lsttoy/article/details/53490144。這個問題困擾了我三天，各種查資料踩坑填坑的嘗試，終於搞定了這個

【Hadoop】Combiner的本質是迷你的reducer，不能隨意使用

現在使用 article driver eight 操作類組合通過技術問題提出：眾所周知，Hadoop框架使用Mapper將數據處理成一個<key,value>鍵值對，再網絡節點間對其進行整理(shuffle)，然後使用Reducer處理數據並進行最

【Hadoop】HDFS的執行原理

【Hadoop】HDFS的執行原理一部落格轉自–http://www.daniubiji.cn/archives/596 簡介 HDFS（Hadoop Distributed File System

【Hadoop】Linux機器上面安裝pyhdfs

Linux機器上安裝pyhdfs 1、準備依賴模組 pyhdfs的安裝依賴requests和simplejson兩個模組，因此在安裝pyhdfs的時候最好已經先安裝了這兩個模組。 requests安裝包比較容易獲取，就不提供資源，pyhdfs的資源參考連結：https://downl

【hadoop】hive 安裝實踐

1.下載Hive安裝包：　　官網下載：http://hive.apache.org/downloads.html 2.上傳Hive的tar包，並解壓：建議和hadoop目錄在一級，方便後續使用；　　解壓：tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /home/

【Hadoop】在Ubuntu系統下安裝Hadoop單機/偽分布式安裝

multi .cn 編輯器重新偽分布式 sources edit 信息情況 Ubuntu 14.10 前方有坑：由於之前的分布式系統電腦帶不動，所以想換一個偽分布式試一試。用的是Virtualbox + Ubuntu 14.10 。結果遇到了 apt-get 源無

【Hadoop】HDFS開發手冊（JavaAPI）

文章目錄前言準備 Core Code 建立資料夾建立新檔案讀取檔案檔案是否存在下載檔案從指定目錄上傳檔案到指定目錄刪除檔案或資料夾追加內容重新命名檔案或資

【hadoop】hadoop完全分散式叢集安裝

文章目錄前言裝備 Core 總結前言後面準備更新hdfs操作（shell命令版本），hbase，hive的操作。所以這裡先更新一下hadoop叢集安裝。裝備 1.hadoop-2.6.5.tar.gz

【Hadoop】在Ubuntu系統下安裝Spark

clas 進行運行輸出結果 oca .com 修改我們 with Spark 版本：spark-2.4.0-bin-without-hadoop.tgz 下載地址：http://spark.apache.org/downloads.html 下載的時候註意一下，需要

【Hadoop】MapReduce深度分析

MapReduce深度分析 MapReduce總結構分析資料流向分析處理過程分析各階段分析 MapTask Read階段 Map階段 Collector和Partitio

【Hadoop】yarn的資源排程

yarn的資源排程 yarn的資源排程前言三種主要排程器排程策略對比 yarn的資源排程前言 Hadoop作為分散式計算平臺，從叢集計算的角度分析，Hadoop可以將底層的計算資源整合後統

【Hadoop】MapReduce平行計算框架

MapReduce平行計算框架基本知識前言核心概念計算模型系統架構作業配置計算流程與機制作業提交和初始化 Mapper Reducer

【Hadoop】HDFS分散式檔案系統

HDFS分散式檔案系統 HDFS基本知識前言目標侷限性 HDFS相關概念塊(Block) HDFS架構名稱節點(NameNode) 資料

【181128】VC++ MFC編寫桌面放大鏡工具原始碼

原始碼下載簡介 VC++ MFC編寫桌面放大鏡工具，純MFC做的放大鏡小例子，VC6,VS2010可以編譯執行，支援自定義，支援當前滑鼠位置放大，和當前放大視窗位置放大，圓形視窗，雙緩衝繪圖，有懸浮透明提示視窗，改變了傳統的放大鏡的實現，完全是自己的創意，希望大家喜歡，抗鋸齒可以使用GDI+

執行stop-dfs.sh後無法停止hadoop叢集【hadoop】

錯誤情況： Stopping namenodes on [master] master: no namenode to stop slave1: no datanode to stop slave2: no datanode to stop slave3: no datanode t

【hadoop】積累2

配置hadoop，使用符號連線的方式，讓三種配置形態共存。 1.建立三個配置目錄,內容等同於hadoop目錄 ${hadoop_home}/etc/local ${hadoop_home}/etc/pesudo ${hadoop_home}/etc/full 2.建立符號連線

【hadoop】wordcount例項編寫

相關推薦