hadoop程式設計實踐（二）

阿新 • • 發佈：2018-11-09

叢集上使用

jar包

首先將之前FileExist檔案進行打包，得到.jar檔案：
將其拷貝到叢集中，並使用hadoop jar命令執行：

WordCount

新增依賴

首先我們需要新建一個WordCount專案，首先要新增Hadoop的包依賴
- /usr/local/hadoop/share/hadoop/common
  - hadoop-common-xxx.jar
  - hadoop-nfs-xxx.jar
- /usr/local/hadoop/share/hadoop/common/lib 下的所有Jar包
- /usr/local/hadoop/share/hadoop/mapreduce該目錄下所有JAR包
- /usr/local/hadoop/share/hadoop/mapreduce/lib目錄下所有JAR包

編寫程式

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache. 
hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop. 
mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {
    public WordCount () {
    }

    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
        public TokenizerMapper () {
        }
        public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context
        ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
        }
    }

    public static class IntSumReducer
            extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,
                           Reducer<Text,IntWritable,Text,IntWritable>.Context context
        ) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            this.result.set(sum);
            context.write(key, this.result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        if (otherArgs.length < 2) {
           System.err.println("Usage: wordcount <in>[<in>...] <out>");
           System.exit(2);
        }
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        for (int i = 0; i < otherArgs.length-1; i++) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length-1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

打包成JAR包

開啟Project Structure：
進行編譯：
生成並檢視JAR包：

本地偽分散式執行

建立兩個檔案作為輸入，內容為：
- I love Spark
  I love Hadoop
  
  Hadoop is good
  Spark is fast

將本地檔案放入hdfs中：

hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put ./wordfile1.txt input
hdfs dfs -put ./wordfile2.txt input

在hdfs中檢視：
- ```
hdfs dfs -ls input
```
執行：
- ```
hadoop jar WordCount.jar input output
```
檢視結果：
- ```
hdfs dfs -cat output/*
```

叢集上執行

首先將JAR包和檔案放入叢集：

將其拷貝到HDFS中：

hdfs dfs -mkdir -p /user/hadoop7/input
hdfs dfs -put ./wordfile1.txt input
hdfs dfs -put ./wordfile2.txt input

檢視檔案：
執行：
- ```
hadoop jar WordCount.jar input output
```
檢視叢集執行情況
- 在連線VPN時，在瀏覽器中輸入10.11.6.91:50070

hadoop程式設計實踐（二）

叢集上使用 jar包首先將之前FileExist檔案進行打包，得到.jar檔案：將其拷貝到叢集中，並使用hadoop jar命令執行： WordCount 新增依賴

hadoop程式設計實踐（一）

Hadoop操作基礎與IDE環境配置。 Hadoop操作目錄操作在操作之前，需要在hadoop根目錄下建立與Linux使用者同名的user目錄 ./bin/hdfs dfs -mkdir -p /user/hadoop 之後，所有的檔案都預設放

Linux訊號程式設計實踐（二）訊號傳送函式和可重入函式

在早期的UNIX中訊號是不可靠的，不可靠在這裡指的是：訊號可能丟失，一個訊號發生了，但程序卻可能一直不知道這一點。現在Linux 在SIGRTMIN實時訊號之前的都叫不可靠訊號，這裡的不可靠主要是不支援訊號佇列，就是當多個訊號發生在程序中的時候（收到訊號的

Hadoop實踐（二）---叢集和開發環境搭建（Intellij IDEA & Maven 開發Hadoop）

1. 開發環境準備 1. Hadoop叢集安裝 2. Maven安裝 3. Intellij IDEA安裝 2. 建立專案 1. 建立Maven專案 2. 輸入GroupId 和 ArtifactId 新建專案後有提示

Mongodb基礎實踐（二）

數據庫查詢表達式 where 技術文章在前面的文章裏面主要介紹了MongoDB的文檔，集合，數據庫等操作和對文檔的增、刪、改相關知識，接下來會總結一點有關查詢的相關知識。在MySQL中,我們知道數據查詢是優化的主要內容，讀寫分離等技術都是可以用來處理數據庫查詢優化的，足以見數

MVC項目實踐（二）——需求分析

用例分析 strong span 詳細現在同時喜歡發揮需求：作為一名觀眾，我希望知道詳細的比分變化和得分信息，以便於了解比賽走向和隊員的精彩得分。用例故事：裏約奧運女排決賽進行中... Ht7:現在比分多少了？ LP:2:1，中國隊領先。 Ht7:那小比

JVM高級特性與實踐（二）：對象存活判定算法（引用）與回收

添加引用計數器程序計數器正文 bmc 進入 block 結構內存關於垃圾回收器GC（Garbage Collection），多數人意味它是Java語言的伴生產物。事實上，GC的歷史遠比Java悠遠，於1960年誕生在MIT的Lisp是第一門真正使用內存動態分配和垃

前端工程化思考與實踐（二）

run test 代碼 -m link 本地生成頁面函數說我 4. 前端工程化開發實踐由於Nodejs 、npm的環境搭建往上很多，這裏就不過多介紹它們了。這裏我們將更多介紹FIS3、RequireJS 、r.js。 4.1 模塊化開發：

springcloud實踐（二）之api網關：zuul

actor 控制 patch isp where url 大文件上傳 html base zuul是什麽? front door. API Gateway.Zuul is a JVM based router and server side load balancer b

KVM虛擬化實踐（二）

KVM 虛擬化實踐 KVM的日常應用管理 1>虛擬機查看#查看當前正在運行中的虛擬機#查看當前物理機的所有虛擬機//也可以在物理機進程上查看 2>虛擬機的開關關閉虛擬機[root@node1 ~]# virsh shutdown CentOS-7.4-x86_64(主機名)關閉虛擬機

Spring Boot 最佳實踐（二）集成Jsp與生產環境部署

內容 tro conf 相關安裝 packaging exc 詳細介紹更新一、簡介提起Java不得不說的一個開發場景就是Web開發，也是Java最熱門的開發場景之一，說到Web開發繞不開的一個技術就是JSP，因為目前市面上仍有很多的公司在使用JSP，所以本文就來介紹

Git工程開發實踐（二）——Git內部實現機制

trie 一段時間戳 git分支 oss \n 保存配置 -a Git工程開發實踐（二）——Git內部實現機制一、Git倉庫內部實現簡介 Git本質上是一個內容尋址(content-addressable)的文件系統，根據文件內容的SHA-1哈希值來定位文件。Git核

車聯網上雲最佳實踐（二）

ice http請求 ack lse .html 1.2 ive bms 的人摘要：我們對傳統IDC應用架構進行分析之後，我們發現之前的系統架構存在一些不合理的地方導致了很多的痛點，為了解決這些痛點我們最終考慮上雲。開始思考怎樣利用雲上產品來解決目前遇到的痛點。例如雲

Cookie和Session在Node.JS中的實踐（二）

快速理解開發工具 ren 發揮超過 see 技術點用戶 img Cookie和Session在Node.JS中的實踐（二） cookie篇在作者的上一篇文章Cookie和Session在Node.JS中的實踐（一）已經是寫得算是比較詳細了，有興趣可以翻看，這篇是ses

服務化改造實踐（二）| Dubbo + Kubernetes

cover del ESS 運行 etc 資源應用層註冊中心調用摘要： “沒有最好的技術，只有最合適的技術。”我想這句話也同樣適用於微服務領域，沒有最好的服務框架，只有最適合自己的服務改造。在Dubbo的未來規劃中，除了保持自身技術上的領先性，關註性能，大流量，大規

Linux學習之shell 程式設計基礎（二）

一、bash環境變數 HOME、MAIL、SHELL、PATH 等，環境變數大都用大寫字母組成 [[email protected] dalianmao]# echo $SHELL /bin/bash [[email protected] dalianmao]# echo

mllib實踐（二）之LinearRegression實踐（DataFrame方式，普通標籤格式轉DataFrame）（整合網際網路上多個例項）

package mllib; import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.ml.linalg.Vectors import org.apache.spark.mllib.regress

大資料Hadoop學習筆記（二）

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

Python + Robotframework + Appium 之APP自動化測試實踐（二）

廢話不多說，直接來實踐（二），本次基於Android手機Settings模組下的search功能進行的自動化測試，程式碼如下： 1 *** Settings *** 2 Library AppiumLibrary 3 4 *** Variables

Linux命令列與shell指令碼程式設計大全（二）

十一、處理使用者輸入命令列引數讀取引數： $0是程式名,$1是第一個引數，$2是第二個引數，以此類推，直到第9個引數$9。當引數個數超過10以後，需要在變數數字周圍加上花括號，如${10},如果輸入到命令列的引數是字串且含有空格，需要使用引號。 #! /bin/bash echo

hadoop程式設計實踐（二）

叢集上使用

jar包

WordCount

新增依賴

編寫程式

打包成JAR包

本地偽分散式執行

叢集上執行

相關推薦