大資料MapReduce原理之WordCount程式

阿新 • • 發佈：2018-12-13

Map Reduce

WordCount

用IDEA建立一個maven工程wordcountmr(單詞計數程式）在pom.xml中引入Hadoop依賴包

    <dependencies>
       <dependency>
           <groupId>org.apache.hadoop</groupId>
           <artifactId>hadoop-client</artifactId>
           <version>2.9.1</version>
       </ 
dependency>
   </dependencies>

新建WordCountMR.Class

package com.cniao5;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce. 
Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class WordCountMR{
    public static class WordCountMapper extends 
 Mapper<LongWritable, Text, Text, LongWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String[] words = line.split("\t");
            for(String word:words) {
                context.write(new Text(word), new LongWritable(1));
            }
        }
    }
    public static class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
        @Override
        protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
            int count = 0;
            for(LongWritable value:values){
                count += value.get();
            }
            context.write(key, new LongWritable(count));
        }
    }
    public static void main( String[] args ) throws IOException, ClassNotFoundException, InterruptedException {
        String input = args[0];
        String output = args[1];
        
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJobName("wordcount");
        job.setJarByClass(WordCountMR.class);
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job,new Path(input));
        FileOutputFormat.setOutputPath(job, new Path(output));

        System.exit(job.waitForCompletion(true)?0:1);
    }
}

打包jar包，View-Tool Windows-Maven Projects- 雙擊package完成打包，在target資料夾下wordcountmr-1.0-SNAPSHOT.jar 將此jar包拷貝到Linux機器上執行在hdfs上新建一個input資料夾，下面放一個要計數的檔案（自己寫若干的單詞，空格隔開） hadoop jar ./wordcountmr-1.0-SNAPSHOT.jar mr.WordCountMR /input /output 等待程式結束，輸出在output下

大資料MapReduce原理之WordCount程式

Map Reduce WordCount 用IDEA建立一個maven工程wordcountmr(單詞計數程式）在pom.xml中引入Hadoop依賴包 <dependencies> <dependency>

大資料教程（8.5）mapreduce原理之並行度

上一篇部落格介紹了mapreduce的移動流量分析的實戰案例，本篇將繼續分享mapreduce的並行度原理。一、mapTask並行度的決定機制

大資料Hive系列之Hive MapReduce

1. JOIN 1.1 join操作 INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);

大資料專案實戰之七:7.JDBC原理

1.Java程式/J2EE程式，當需要操作資料庫，通常就是對資料庫中某一個，或者某些表，進行增刪改查那麼就需要通過某些方式連線到資料庫，比如MySQL，執行各種SQL語句（insert、select、udpate） 2.JDBC，Java Database Connectivity，Jav

MapReduce之WordCount程式詳解及常見錯誤彙總

前言：在之前的筆記中，我們已經成功的關聯了eclipse和hadoop，對FileSystem的使用進行了簡單瞭解。下面就是Hadoop中的重點MapReduce程式的開發。作為MapReduce（以下使用MR來代替）開發中的入門程式WordCount

大資料處理基礎之利用hadoop寫的簡單mapreduce案例

案例：需要處理的資料： 13877779999 bj zs 2145 13766668888 sh ls 1028 13766668888 sh ls 9987 13877779999 bj zs 5678 13544445555 sz ww 10577 1387777999

大資料初學習之MapReduce理論概述

Hadoop-MapReduce分散式計算整理分散式開發思維與平行計算思維引例1 假設有一個1T的大檔案，這個檔案的每一行是一個數字環境：一臺伺服器，核數：48core 64G記憶體需求：將大檔案排序，不管是正序還是倒序思路：將大檔案切成一個個的

Python 玩轉大資料 Mapreduce開發 wordcount

一介紹 MapReduce 是一種分散式程式設計模型，用於處理大規模的資料。使用者主要通過指定一個 map 函式和一個 reduce 函式來處理一個基於key/value pair的資料集合，輸出中間的基於key/value pair的資料集合；然後再建立一

大資料學習筆記之分散式並行處理MapReduce

谷歌公司最先提出了分散式並行程式設計模型MapReduce，Hadoop MapReduce是它的開源實現，後者比前者使用門檻低很多。 MapReduce和傳統的平行計算框架的比較傳統平行計算框架 MapReduce 叢集架構/容錯性共享

大資料Zookeeper系列之Zookeeper服務開機自啟動配置

1. 編寫執行指令碼 $ sudo cd /etc/init.d $ sudo vi zookeeper #!/bin/bash #chkconfig:2345 20 90 #description:zookeeper #processname:zookeeper

大資料Hadoop系列之Hadoop服務開機自啟動配置

1. 編寫執行指令碼 $ sudo cd /etc/init.d $ sudo vi hadoop #!/bin/bash #chkconfig:35 95 1 #description:script to start/stop hadoop su - hadoop

大資料HBase系列之HBase分散式資料庫部署

一、部署準備 1. 依賴框架大資料Hadoop系列之Hadoop分散式叢集部署：https://blog.csdn.net/volitationLong/article/details/80285123 大資料Zookeeper系列之Zookeeper叢集部署：https://

大資料Zookeeper系列之Zookeeper分散式協調服務部署

一、部署準備 1. 安裝介質 zookeeper-3.4.13：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz 2. 主機規劃 192.168.233.13

大資料HBase系列之初識HBase

1. HBase簡介 1.1 為什麼使用HBase 傳統的RDBMS關係型資料庫（MySQL/Oracle）儲存一定量資料時進行資料檢索沒有問題，可當資料量上升到非常巨大規模的資料（TB/PB）級別時，傳統的RDBMS已無法支撐，這時候就需要一種新型的資料庫系統更好更

大資料Hive系列之Hive常用SQL

1. hive匯出資料到hdfs 語法：export table 表名 to '輸出路徑'; 例子：export table cloud.customer to '/tmp/hive/customer'; 2. beeline連線 $ beeline 語法：beeline> !

大資料Hive系列之Hive使用者許可權管理

1. 角色 * 建立角色 create role role_name; * 顯示角色 show roles; * 刪除角色 drop role role_name; 2. 使用者 * 使用者進入admin角色許可權 set hive.users.in.admin.role;

大資料Flume系列之Flume叢集搭建

1. 概念叢集的意思是多臺機器，最少有2臺機器，一臺機器從資料來源中獲取資料，將資料傳送到另一臺機器上，然後輸出。接下來就要實現Flume叢集搭建。叢集如下圖所示。 2. Flume搭建 2.1 部署準備部署主機 192.168.9.139 host14

大資料Hive系列之Hive API

Maven依賴配置 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://ma

大資料分析學習之路

一、大資料分析的五個基本方面二、如何選擇適合的資料分析工具三、如何區分三個大資料熱門職業四、從菜鳥成為資料科學家的 9步養成方案五、從入門到精通——快速學會大資料分析推薦下小編的大資料學習群；

小米大資料 OLAP 實踐之 Lambda Architecture

在2018年8月Apache Kylin [email protected]北京活動上，小米大資料架構師分享了小米 OLAP 平臺，基於 Apache Kylin 和其它實時引擎組成的 Lambda 架構，以滿足業務對資料查詢效能以及及時性的多重要求。篇幅過長，原文瀏覽地址https://www

大資料MapReduce原理之WordCount程式

Map Reduce

WordCount

相關推薦