使用 IntelliJ IDEA寫出你的第一個mapruduce應用

阿新 • • 發佈：2019-01-08

    文章基於widows環境下的idea,hadoop版本2.7.2，案例來源於《Hadoop:The Definitive Guide》第二章，需要統計美國自1901年以來每一年的最高氣溫，資料檔案見百度盤 https://pan.baidu.com/s/1gfoZkUf

1、配置maven

略

2、解讀（簡版，詳見book)

a.資料解讀

資料格式

    從資料格式中可以看到每一行(15,19)是年份資訊，而(87,92)儲存的是溫度，(92,93)儲存的是天氣的質量資訊，我們需要提取出年份和溫度資訊。

b.map階段

    在map階段只是一個準備資料的過程，提取年份和溫度形成鍵值對輸出給reduce階段；並且在這個過程中篩掉缺失和錯誤的資料。

map結果

    map結果提取出每一行對應的年份和溫度資訊。

c.reduce階段

    map函式的輸出經過MapReduce框架處理後，最後傳送到reduce函式，這個過程基於鍵來對鍵值對進行進行排序和分組，因此，reduce函式看到的是如下輸入：

這裡寫圖片描述
每一年緊接著一系列氣溫資料，reduce要做的工作就是遍歷整個列表並找出最大的數值。

3、code

a.map階段—獲取每一年的溫度，以（key,value)鍵值對儲存

package mkd.hadoop.mr;
import org.apache.hadoop.io.IntWritable;
import 
 org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

/**
 * Created by MKD on 2017/7/12.
 * map階段
 */
public class MyMaxTempMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
    private static final int MISSING = 9999 
;
    @Override
    public void map(LongWritable key,Text value,Context context)
        throws IOException,InterruptedException{
        String line = value.toString();//將每一行資料轉化成String
        String year = line.substring(15,19);//獲取年份資料
        int airTemperature;
        //提取氣溫 + / -
        if(line.charAt(87) == '+'){
            airTemperature = Integer.parseInt(line.substring(88,92));//將string轉化成int
        }else{
            airTemperature = Integer.parseInt(line.substring(87,92));
        }
        //質量
        String quality = line.substring(92,93);
        //判斷氣溫有效性
        if(airTemperature != MISSING && quality.matches("[01459]")){
            context.write(new Text(year),new IntWritable(airTemperature));
        }
    }
}

b.reduce階段—找出每一年最大溫度

package mkd.hadoop.mr;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * Created by MKD on 2017/7/12.
 * reduce階段
 */
public class MyMaxTemperReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
    @Override
    public void reduce(Text key,Iterable<IntWritable> values,Context context)
        throws IOException,InterruptedException{
        int maxValue = Integer.MIN_VALUE;
        for(IntWritable value:values){//獲取最大溫度
            maxValue = Math.max(maxValue,value.get());
        }
        context.write(key,new IntWritable(maxValue));
    }
}

c.MapReduceJob

package mkd.hadoop.mr;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * Created by MKD on 2017/7/12.
 * mapreduce APP
 */
public class MyMaxTemputer {
    public static void main(String[] args) throws Exception{
        if(args.length != 2){
            System.err.println("Usage:MaxTemperture <input path> <output path>");
            System.exit(-1);
        }
        Job job = Job.getInstance();
        job.setJarByClass(MyMaxTemputer.class);
        job.setJobName("MyMaxTemputer");//設定作業名稱

        FileInputFormat.addInputPath(job,new Path(args[0]));//輸入路徑
        FileOutputFormat.setOutputPath(job,new Path(args[1]));//輸出路徑

        job.setMapperClass(MyMaxTempMapper.class);//設定mapper型別
        job.setReducerClass(MyMaxTemperReducer.class);//設定reduce型別

        job.setOutputKeyClass(Text.class);//設定輸出key型別
        job.setOutputValueClass(IntWritable.class);//設定輸出value型別

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

4、設定輸入輸出

這裡寫圖片描述

    上面是輸入路徑，下面是輸出路徑（輸出目錄一定要不存在！！！！，否則報錯）

5、執行APP

這裡寫圖片描述

    然後在輸出路徑下可以看到如下檔案，_SUCCESS表示執行成功，我們開啟part-r-0000檔案可以檢視結果

這裡寫圖片描述

使用 IntelliJ IDEA寫出你的第一個mapruduce應用

文章基於widows環境下的idea,hadoop版本2.7.2，案例來源於《Hadoop:The Definitive Guide》第二章，需要統計美國自1901年以來每一年的最高氣溫，資料檔

IntelliJ IDEA 2017.3的第一個JAVA程式

本人寫JAVA程式碼一直都是使用eclipse，覺得eclipse寫程式碼很方便也很順手。但是最近看到有同事在使用IDEA開發JAVA，於是出於好奇就想用用看看到底哪款軟體好用。於是就下載並安裝了IDEA寫下了第一個JAVA程式碼。下面附上我的下載教程以及安裝過程。一

你第一個Electron應用　| Electron in Action(中譯)

效果演示: 本章主要內容構造並設定Electron應用生成package.json,通過開發用Electron配置其工作在你的專案中預先構建Electron版本配置你的package.json去啟動主程序從主程序生成渲染程

用intellij idea 寫第一個Java程序

lan href ava ips dea star guid tel html Java小白，還不怎麽會eclipse，只會在命令行用javac編譯並java運行編譯後的類。英文還不好orz 發現創建項目後，能build但就是不能run。。。找了半天教程沒找著，去官網溜

IntelliJ IDEA 運行你的第一個Java應用程序

center clas cti tel 應用 dea bubuko oid ati IntelliJ IDEA 運行你的第一個Java應用程序創建項目讓我們創建一個簡單的Java Hello World項目。單擊創建新的項目。打開新建項目向導。你應該註意的主要是

IntelliJ IDEA 執行你的第一個Java應用程式 idea執行main方法

IntelliJ IDEA 執行你的第一個Java應用程式建立專案讓我們建立一個簡單的Java Hello World專案。單擊建立新的專案。開啟新建專案嚮導。你應該注意的主要是專案的SDK。SDK（軟體開發套件）是一套軟體開發工具，可以讓你更快的開發應用程式。IntelliJ IDEA

用IntelliJ IDEA寫一個SSM整合專案(第二篇)

接著上一篇部落格 https://blog.csdn.net/weixin_43889941/article/details/85015090 接著呢，在resources子目錄下新建"xml"資料夾，這裡名字可以隨便取，但是在springmvc.xml需要修改

用IntelliJ IDEA寫一個SSM整合專案(第一篇)

Spring+Spring MVC+MyBatis整合專案在pom.xml中匯入相應的包，我用的是 MySql 資料庫，結構如下 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="htt

AI 入門，從零搭建完整 AI 開發環境，並寫出第一個 AI 應用

是時候學習 AI 了！怎麼做我們來教你。所需環境：64位的 Windows10，Windows8/7 64位下也能安裝。機器要有至少 30G 的硬碟空間。要求：讀者需要知道怎麼用基本的 GitHub 操作和基本程式開發。本場 Chat 主要內容：入門 AI 工具和平臺，一

設置Intellij IDEA 提示出未保存的*星號

hle lan html myeclipse 發的 mar 設置 mark entry 　　IDEA實乃是java開發的神器，然而從eclipse或者MyEclipse轉過來的開發每寫完一行代碼總是習慣的按下ctrl+s，然而IDEA代碼編輯器的上方並沒有提示未保存的*星號

intellij idea 寫 Helloworld

building bean min state conda ready page world resources http://www.jetbrains.com/idea/webhelp/creating-and-running-your-first-java-a

敲出的第一個python程序

form bsp nbsp input print ase 源代碼 password 後來學習python第二天，終於照貓畫虎編輯出第一個程序。程序要求如下： 1.輸入用戶名、密碼 2.認證成功後顯示歡迎信息 3.輸錯三次後鎖定源代碼如下： username = ‘

（一）IDEA工具開第一個springboot應用之helloworld

control api 結構 spring maven https tro idt .cn （一）IDEA工具開第一個springboot應用之helloworld 一、前置知識　　　　1、maven相關知識　　2、spring註解　　3、RESTful API 二、

編寫你的第一個Django應用程序，第四部分

次數用戶進行訪問觀點 ken span .py return 本教程從隨筆三停止的地方開始。這裏將重點放簡單的表單處理和削減我們的代碼。寫一個簡單的表單更新模版文件polls/detail.html，以便包含一個html<form>元素：

Hive面試題：請寫出你在工作中自定義過的udf函式，簡述定義步驟

步驟： 1.extends UDF，實現evaluate（） 2.add JAR /home/hadoop/hivejar/udf.jar; 3.create temporary function tolowercase as 'com.ghgj.hive.udf.ToLowerCa

IntelliJ IDEA寫JSP檔案出現“cannot resolve method”解決辦法

最近在使用IDEA寫JSP檔案的時候，有些內建物件出現了cannot resolve method的警告提示，程式碼執行沒有問題，在編寫的時候也不會提示，最後請教了萬能的搜尋引擎，解決了此問題。解決辦法該錯誤的導致的原因是因為沒有在專案中新增好伺服器關聯，解決辦法為：開啟File>

Django-編寫你的第一個Django應用程式2

建立投票應用程式您在Django中編寫的每個應用程式都包含遵循特定約定的Python包。 Django帶有一個實用程式，可以自動生成應用程式的基本目錄結構，因此您可以專注於編寫程式碼而不是建立目錄。 1、專案與應用程式專案和應用程式有什麼區別？應用程式是

Django-編寫你的第一個Django應用程式1

一、開發環境 MacOS10.13.1 python3.7 二、安裝安裝命令： pip3 install django 檢視版本： python3 -m django --version 2.1.2 版本的選擇：作為學習當然選擇最新版本了, 預設安裝的

Django-編寫你的第一個Django應用程式3

文章目錄資料庫設定開啟mysite/settings.py.這是一個普通的Python模組，其中的模組級變數代表Django設定。預設情況下，配置使用SQLite。如果您希望使用其他資料庫，請安裝相應的資料庫繫結，並在DATABASES '預設’專案中更

IntelliJ IDEA)中彈出“IntelliJ IDEA License Activation”時怎麼辦

今天開啟 IntelliJ 提示： Your IntelliJ IDEA evaluation has expired. Your session will be limited to 30 minutes. 網上百度了下發現自己的啟用碼已經過期了，如果我們不去在此啟用的話使用30分鐘就

使用 IntelliJ IDEA寫出你的第一個mapruduce應用

1、配置maven

2、解讀（簡版，詳見book)

3、code

4、設定輸入輸出

5、執行APP

相關推薦