hadoop version3 第二章關於MapReduce

阿新 • • 發佈：2018-12-19

java mapreduce

尋找每一年全球的最高氣溫

在這裡插入圖片描述
輸入值的key是檔案中的行偏移量，map函式不需要該資訊，所以將其忽略。value是一行文字資訊

map的功能是從中找出每年的溫度，統計到一個對應的陣列中。
reduce的功能是遍歷每年的列表，並從其中找到最高溫度。

Mapper類

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache. 
hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MaxTemperatureMapper
  extends Mapper<LongWritable, Text, Text, IntWritable> {

  private static final int MISSING = 9999;
  
  @Override
  public void map(LongWritable key, Text value, Context context)
      throws IOException, 
 InterruptedException {
    
    String line = value.toString();
    String year = line.substring(15, 19);
    int airTemperature;
    if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
      airTemperature = Integer.parseInt(line.substring(88, 92));
    } else {
      airTemperature = 
 Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (airTemperature != MISSING && quality.matches("[01459]")) {
      context.write(new Text(year), new IntWritable(airTemperature));
    }
  }
}

Mapper類是一個泛型型別，形參有四個，分別指定map函式的輸入鍵（行偏移量，長整數），輸入值（一行文字），輸出鍵（年份），輸出值（氣溫，整數）
map()方法：輸入一個鍵和一個值
Context例項用於輸出內容的寫入，將年份資料按照Text物件進行讀寫，氣溫物件封裝在IntWritable型別中

Reducer類

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaxTemperatureReducer
  extends Reducer<Text, IntWritable, Text, IntWritable> {
  
  @Override
  public void reduce(Text key, Iterable<IntWritable> values,
      Context context)
      throws IOException, InterruptedException {
    
    int maxValue = Integer.MIN_VALUE;
    for (IntWritable value : values) {
      maxValue = Math.max(maxValue, value.get());
    }
    context.write(key, new IntWritable(maxValue));
  }
}

Reducer類也有四個函式指定輸入輸出型別
reduce函式的輸入型別必須匹配map函式的輸出型別

第三部分程式碼負責執行MapReduce作業

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTemperature {

  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperature <input path> <output path>");
      System.exit(-1);
    }
    
    Job job = new Job();
    job.setJarByClass(MaxTemperature.class);
    job.setJobName("Max temperature");

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    
    //指定map類和reduce類
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setReducerClass(MaxTemperatureReducer.class);
	
	//設定map函式和reduce函式的輸出型別，這兩個函式的輸出型別一般相同。如果不同就分別用setMapOutputKeyClass(),setMapOutputValueClass來設定map函式的輸出型別
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    
    //輸入的型別通過InputFormat類控制，預設為文字輸入格式
    
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

Job物件：用來指定作業執行規範。Job.setJarByClass(**.class),向叢集中傳遞一個類名，hadoop利用這個類來查詢包含它的jar檔案，從而把jar檔案上傳到叢集時，不用指定jar檔案的名稱
FileInputFormat中的靜態方法addInputPath()定義入資料路徑，這個路徑可以是單個檔案、一個目錄（目錄下的所有檔案當做輸入）或者符合特定檔案模式的一系列檔案
FileOutputFormat 中的靜態方法setOutputPath()用來指定輸出檔案的路徑（只能有一個路徑），在執行作業前該路徑應該是不存在的，否則會報錯。

測試執行

linux單節點配置

windows下測試未完成

問題：重新啟動後，hadoop命令無法識別，只能進入hadoop-2.9.1/bin中啟動；並且不知道如何恰當的編譯java檔案為jar包。。

hadoop version3 第二章關於MapReduce

java mapreduce 尋找每一年全球的最高氣溫輸入值的key是檔案中的行偏移量，map函式不需要該資訊，所以將其忽略。value是一行文字資訊 map的功能是從中找出每年的溫度，統計到一個對應的陣列中。 reduce的功能是遍歷每年的列表，並從其中找到最

深入學習Hadoop之第二篇——MapReduce

概念：MapReduce是一種資料處理的程式設計模型一、Map 1.資料流：一個MapReduce job是客戶端所執行的work的單元，它包括：輸入資料、MapReduce程式以及配置資訊；

hadoop的安裝和配置——第二章：偽分布模式

manage 安裝和配置 for tex .com 偽分布 roo oca mat 這篇為大家帶來hadoop的偽分布模式：從最簡單的方面來說，偽分布模式就是在本地模式上修改配置文件： core-site.xml;hdfs-site.xml;mapred-site.xml

Apache Hadoop 入門教程第二章

大數據 hadoop Apache Hadoop 單節點上的安裝配置下面將演示快速完成在單節點上的 Hadoop 安裝與配置，以便你對 Hadoop HDFS 和 MapReduce 框架有所體會。先決條件支持平臺： GNU/Linux：已經證實了 Hadoop 在 GNU/Linux 平臺

大資料技術原理與應用第二章大資料處理架構Hadoop 學習指南

本指南介紹Linux的選擇方案，並詳細指引讀者根據自己選擇的Linux系統安裝Hadoop。請務必仔細閱讀完廈門大學林子雨編著的《大資料技術原理與應用》第2章節，再結合本指南進行學習。Hadoop是基於Java語言開發的，具有很好跨平臺的特性。Hadoop的所要求系統環境適用於Windows，Linux，Ma

《Hadoop生態》——第二章資料庫與資料管理——Accumulo

Accumulo 許可證： Apache License, Version 2.0 活躍度：高目的：帶有單元級安全的Name-value資料庫官方地址： Hadoop整合：完全整合你有這麼一個應用，它可以很好

Thinking in Java（第四版）—— 第二章一切皆對象

ati 靜態數據類型 thinking short str 變量屬於字符一.對象保存的位置寄存器（cpu）棧（變量）堆（對象）靜態域（static）常量池（string）非內存區池二.基本數據類型整數型 byte short int

android第二章控件1

大小定義 () nal int 編輯 extc get activit 1.Activity：用於存放各個顯示控件，是android的基本組成 2.Activity常用方法：public final View findViewById(int id) 根據組件的id取得組

『Java編程思想-第四版』第二章:一切都是對象

ack 運行時錯誤存儲數據類型自身創建引用 all 外觀 Java編程思想-第四版學習總結,此為第二章:一切都是對象. package com.w3cjava.second; @SuppressWarnings("all") pu

機器學習第二章：模型評估與選擇-總結

但是交叉 roc曲線掃描 com ram hidden 技術分享 preview 1、數據集包含1000個樣本，其中500個正例，500個反例，將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估，試估算共有多少種劃分方式。留出法將數據集劃分為兩個互斥的

【機器學習筆記】第二章：模型評估與選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

《Python編程從入門到實踐》第二章_變量和簡單數據類型

數據類型記錄 strip() 哪些改變解決方法變量名擔心 cal 什麽是變量呢？舉例： >>> message = "Hello,Python!" >>> print (message) Hello,Python! 這

我的學習之路_第二章_接口/多態

nal interface implement 類型轉換 ace pri 類名提高表現接口 (1)當抽象類中的方法都是抽象的時候，java就提供了一種新的表現形式：接口。接口是功能的集合接口不能創建對象 (2)格式：父接口： public interface

java基礎第二章

兼容關鍵字場景 img 數據類型轉換 blog 變量命名規則大於等於單詞一、變量　　　　　　1.變量是內存中的一個標識符號，用於存儲數據　　　　　　2.變量命名規則——【P35頁】　　　　　　必須以字母、下劃線 _ 、美元符號 $ 開頭

一站式學習Wireshark第二章

forbidden 快速 pro 幫助 shark sha 客戶 echo 從服務器 TCP: TCP/IP通過三次握手建立一個連接。這一過程中的三種報文是：SYN，SYN/ACK，ACK。第一步是找到PC發送到網絡服務器的第一個SYN報文，這標識了TCP三次握手的開始。

第二章：數據類型和運算符

取反可能 tin 中間接口 double類型變量名不能修飾第二章:數據類型和運算符計算機中的進制 **標識符總的命名規則:見名知意。如果有多個單詞組成，首單詞小寫，其余單詞的首字母大寫(駝峰命名法)。1.首字母只能是字母，下劃線和$2.其余字母可以字母,下

面向對象第二章

實現繼承類對象調用訪問 erl 派生提取 bject 提高一、繼承的優點優點：提高代碼的可重用性 1、如何判斷A、B類之間是繼承關系？符合 is…a關系 2、java中，所有的類都直接或間接的繼承了java.lang.Object類 3、 ja

【網絡原理】期末復習筆記第二章物理層

計算機網絡第二章物理層2.1物理層的基本概念物理層定義：解決如何在連接各種計算機的傳輸媒體上傳輸數據比特流，而不是具體的傳輸媒體。物理層的主要任務為：確定與傳輸媒體的接口的特性機械特性：接口形狀，大小，引線數目功能特性：電壓強度決定信號大小電器特性：規定電壓範圍過程特性：建立連接時各個相關部件的工作步驟.

【HTTP權威指南】第二章-URL與資源

理想還需要端口號劃分說明字符 span http權威指南網關【統一資源定位符URL】通過位置來標示資源，其表達的格式如下：https://item.jd.com/523961.html 第一部分（https）是方案，告知客戶端要【怎樣訪問】，這裏使用的是htt

Java第二章----對象和類

lang 權限 app 讀取 -o 通用返回值完全靜態從第一章到第二章整整隔了一個月的時間，這速度也是慢的無語了。因為這個月負責開發公司一個SaaS類型APP，忙的昏天暗地終於上線了，這才有時間寫個博客。本章還是以概念為主，有點枯燥重在理解。第一節：對

hadoop version3 第二章 關於MapReduce

java mapreduce

尋找每一年全球的最高氣溫

Mapper類

Reducer類

第三部分程式碼負責執行MapReduce作業

測試執行

windows下測試未完成

相關推薦

hadoop version3 第二章關於MapReduce