元資料與資料治理｜Intellij IDEA提交遠端Hadoop MapReduce任務（第八篇）

阿新 • • 發佈：2019-01-14

1.新建IntelliJ下空的的maven專案

直接next即可。

2.配置依賴

編輯pom.xml檔案，新增apache源和hadoop依賴

基礎依賴hadoop-core和hadoop-common；
讀寫HDFS，需要依賴hadoop-hdfs和hadoop-client；
如果需要讀寫HBase，則還需要依賴hbase-client

 <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <name>hadoop</name>
    <url>http://maven.apache.org</url>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.8.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.8.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.8.1</version>
        </dependency>

    </dependencies>

3.新增core-site.xml到resources檔案

將虛擬機器上的hadoop下/etc/hadoop/core-site.xml檔案拷貝到此專案下resources資料夾下

注意master是我虛擬機器ip地址的對映，如果沒有配置hosts檔案那麼這裡應該填的是你虛擬機器的IP地址。

4.編寫一個WordCount類

WordCount.java


import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context
        ) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer
            extends Reducer<Text,IntWritable,Text,IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,
                           Context context
        ) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("mapreduce.cluster.local.dir","/Users/CHOUKIN/hadoop/var");//在此處有一坑，本地需要新增一個快取資料夾
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

注意：conf.set("mapreduce.cluster.local.dir","/Users/CHOUKIN/hadoop/var");//在此處有一坑，本地需要新增一個快取資料夾
如果沒有這個本地快取資料夾，會報以下錯誤

查詢hadoop官網docs關於mapred-default.xml引數簡介

mapreduce.cluster.local.dir :
The local directory where MapReduce stores intermediate data files. May be a comma-separated list of directories on different devices in order to spread disk i/o. Directories that do not exist are ignored.

這個引數是MapReduce 儲存中間資料檔案的本地目錄。對不同的裝置上的目錄可以用逗號分隔，用以加快磁碟 i/o 。不存在的目錄將被忽略。

5.配置執行引數

在Intellij選單欄中選擇Run->Edit Configurations，在彈出來的對話方塊中點選+，新建一個Application配置。配置Main class為WordCount（可以點選右邊的...選擇），

為Program arguments新增輸入路徑以及輸出路徑，記得把ip地址改為自己虛擬機器的ip地址

6.執行程式

拷貝了一篇滿分英語作文在test.txt裡，執行結果如下

每次執行時檢查hdfs上是否有output資料夾，如果有，請刪除output資料夾。

作者：Chowkin
連結：https://www.jianshu.com/p/41569d558fde
來源：簡書

元資料與資料治理｜Intellij IDEA提交遠端Hadoop MapReduce任務（第八篇）

1.新建IntelliJ下空的的maven專案直接next即可。 2.配置依賴編輯pom.xml檔案，新增apache源和hadoop依賴基礎依賴hadoop-core和hadoop-common；讀寫HDFS，需要依賴hadoop-hdfs和hadoop-client

元資料與資料治理｜MapReduce概述（第七篇）

MapReduce是什麼 Hadoop MapReduce是一個軟體框架，基於此框架能夠容易地編寫應用程式，這些應用程式能夠執行在由上千個商用機器組成的大叢集上，並以一種可靠的，具有容錯能力的方式並行地處理上TB級別的海量資料集。簡單來說就是MapReduce就是一個計算框架。 MapRed

元資料與資料治理｜大資料之數倉平臺設計（第十篇）

對於大資料來說，數倉的作用不言而喻，承載著整個公司全業務線的資料，現階段，在hadoop上的數倉主要是用來解決企業內部資料的分析，尤其是各種各樣的統計分析報表。本文主要結合自己公司目前數倉的結構設計和現階段解決的問題而敘述和分享，如有不明，錯誤之處，各位看官可指出，非常感謝！下圖為數倉整體的技

元資料與資料治理｜大資料治理（第九篇）

魅族大資料平臺的一個技術分享活動,話題是《大資料治理之路》.魅族大資料平臺工作人員分享了一些他們的大資料治理經驗,很有內容。首先,他們整理了一個治理流程,架構圖然後，依照架構圖，大致講了架構圖中的每個模組，以及將模組串聯起來的一個管理流程，流程圖如下：然

元資料與資料治理｜Spark SQL結構化資料分析（第六篇）

資料科學家們早已熟悉的R和Pandas等傳統資料分析框架雖然提供了直觀易用的API，卻侷限於單機，無法覆蓋分散式大資料場景。在Spark1.3.0以Spark SQL原有的SchemaRDD為藍本，引入了Spark DataFrameAPI，不僅為Scala、Python、Jav

元資料與資料治理｜MapReduce統計詞語出現次數（第五篇）

晨曦同學（Dota界號稱利神）前段時間分享了這樣一個問題：如何在一個很大的檔案中（該檔案包含了中英文）找出出現頻率比較高的幾個詞呢？我們來分析一下。找出現頻率比較高的詞語，首先要有一個支援中文的分詞器（IK，庖丁解牛等等），這個問題不大；分詞之後呢就要統計詞語出現次數，類似於MapReduce程式中

為什麼我要放棄javaScript資料結構與演算法（第八章）—— 樹

之前介紹了一些順序資料結構，介紹的第一個非順序資料結構是散列表。本章才會學習另一種非順序資料結構——樹，它對於儲存需要快速尋找的資料非常有用。本章內容樹的相關術語建立樹資料結構樹的遍歷新增和移除書的節點 AVL 樹第八章樹樹資料結構樹是一種分層資料的抽象模型。現實生活中最常見的樹的典型例

python開發（第三篇）：python基本數據類型（列表，元組，字典）

python開發 .com mage es2017 列表基本 images 數據類型切片 ##########列表：list########## 1.索引：結果：eirc 2.切片 python開發（第三篇）：python基本數據類型（列表，元組，字典）

元資料與資料治理｜學習彙總

以下是學習元資料與資料治理的整個過程：包含技術總結和心裡變化情況以日誌的形式進行彙總 2019.1.4 （第一天：接觸需求）需求定義第一天講解需求（資料倉庫、元資料處理建設）內心變化&n

元資料與資料治理|Apache Atlas安裝過程詳解（初步版本）

Apache Atlas安裝過程詳解一

元資料與資料治理|Apache Atlas API使用入門(第十一篇)

一概念講解 Apache atlas Api主要是對Type，Entity，Attribute這3個構件的增刪改查操作（Api和Admin UI供外部呼叫，其它的被封裝或在配置檔案中） Atlas Type System A

為什麼我要放棄javaScript資料結構與演算法（第三章）—— 棧

有兩種結構類似於陣列，但在新增和刪除元素時更加可控，它們就是棧和佇列。第三章棧棧資料結構棧是一種遵循後進先出（LIFO）原則的有序集合。新新增的或待刪除的元素都儲存在棧的同一端，稱為棧頂，另一端就叫做棧底。在棧裡，新元素都靠近棧頂，舊元素都接近棧底。棧也被用在程式語言的編譯器和記憶體中儲存

為什麼我要放棄javaScript資料結構與演算法（第五章）—— 連結串列

這一章你將會學會如何實現和使用連結串列這種動態的資料結構，這意味著我們可以從中任意新增或移除項，它會按需進行擴張。本章內容連結串列資料結構向連結串列新增元素從連結串列移除元素使用 LinkedList 類雙向連結串列迴圈連結串列第五章連結串列連結串列資

JAVA 程式設計題解與上機指導（第四版）第二章·識別符號、關鍵字和資料型別 2.12

/*2.12 設計實現一個MyGraphic類及子類，它們代表一些基本圖形，這些圖形包括矩形、三角形、圓、橢圓、菱形、梯形等。試給能描述這些圖形所必需的屬性及必要的方法 **/ public class MyGraphic { String lineColor;//線條顏色 Strin

學習JavaScript資料結構與演算法（第2版）.epub

【下載地址】本書首先介紹了JavaScript 語言的基礎知識以及ES6 和ES7 中引入的新功能，接下來討論了陣列、棧、佇列、連結串列、集合、字典、散列表、樹、圖等資料結構，之後探討了各種排序和搜尋演算法，包括氣泡排序、選擇排序、插入排序、歸併排序、快速排序、堆排序、

大資料與資料分析概述

何為資料？——資料的幾種定義資料(data)是事實或觀察的結果，是對客觀事物的邏輯歸納，是用於表示客觀事物的未經加工的的原始素材。資料是資訊的表現形式和載體，可以是符號、文字、數字、語音、影象、視訊等。資料和資訊是不可分離的。資料是資訊的表達，資訊是資

為什麼我要放棄javaScript資料結構與演算法（第十章）—— 排序和搜尋演算法

本章將會學習最常見的排序和搜尋演算法，如氣泡排序、選擇排序、插入排序、歸併排序、快速排序和堆排序，以及順序排序和二叉搜尋演算法。第十章排序和搜尋演算法排序演算法我們會從一個最慢的開始，接著是一些效能好一些的方法先建立一個數組（列表）來表示待排序和搜尋的資料結構。 function Arra

Linux核心設計與實現總結筆記（第六章）核心資料結構

核心資料結構 Linux核心實現了這些通用資料結構，而且提倡大家在開發時重用。核心開發者應該儘可能地使用這些資料結構，而不要自作主張的山寨方法。通用的資料結構有以下幾種：連結串列、佇列、對映和二叉樹一、連結串列 1.1 單向連結串列和雙向連結串列 1.2 環形

《影象處理、分析與機器視覺》（第4版）閱讀筆記——第四章影象分析的資料結構

4.1 影象資料表示的層次共分為四個層次：最底層的表示：圖示影象（iconic images），由含有原始資料的影象組成，原始資料也就是畫素亮度資料的整數矩陣。（預處理的部分）第二層的表示：分割影象（segmented images）。第三層：幾何表示（geo

《瘋狂Java講義（第4版）》-----第3章【資料型別與運算子】

Java的官方API下載 Java語言是一門強型別語言。強型別含義：所有變數必須先宣告，後使用；指定型別的變數只能接受型別與之匹配的值註釋 //單行註釋 /* 多行註釋 */ /** *文件註釋 */ 識別符號字母、下劃線、美元符號、數字組成。字

元資料與資料治理｜Intellij IDEA提交遠端Hadoop MapReduce任務（第八篇）

1.新建IntelliJ下空的的maven專案

2.配置依賴

3.新增core-site.xml到resources檔案

4.編寫一個WordCount類

5.配置執行引數

6.執行程式

相關推薦