18-hadoop-weather案例

阿新 • • 發佈：2017-08-08

ping ide exc 所有 void 每年 [] exce framework

weather案例, 簡單分析每年的前三個月的最高溫即可, 使用自定義的分組和排序

1, MyKey,

因為對溫度進行分組, 排序, pardition操作, 所以默認的字典順序不能滿足需求

package com.wenbronk.weather;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

/**
 * 自定義key, 對key進行分組
 * 實現writableComparble方法, 可序列化並比較是否同一個對象
 * @author root
 *
  
*/
public class MyKey implements WritableComparable<MyKey> {

    private int year;
    private int month;
    private double hot;
    
    public int getYear() {
        return year;
    }
    public void setYear(int year) {
        this.year = year;
    }
    public int getMonth() {
        return 
 month;
    }
    public void setMonth(int month) {
        this.month = month;
    }
    public double getHot() {
        return hot;
    }
    public void setHot(double hot) {
        this.hot = hot;
    }
    
    /**
     * 反序列化
     */
    @Override
    public void readFields(DataInput arg0) throws IOException {
         
this.year = arg0.readInt();
        this.month = arg0.readInt();
        this.hot = arg0.readDouble();
    }
    
    /**
     * 序列化
     */
    @Override
    public void write(DataOutput arg0) throws IOException {
        arg0.writeInt(year);
        arg0.writeInt(month);
        arg0.writeDouble(hot);
    }
    
    /**
     * 比較, 判斷是否同一個對象, 當對象作為key時
     */
    @Override
    public int compareTo(MyKey o) {
        int c1 = Integer.compare(this.year, o.getYear());
        if (c1 == 0) {
            int c2 = Integer.compare(this.month, o.getMonth());
            if (c2 == 0) {
                return Double.compare(this.hot, o.getHot());
            }
        }
        return 1;
    }
    
    
}

2, sort

package com.wenbronk.weather;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

/**
 * 自定義排序
 * @author root
 */
public class MySort extends WritableComparator {
    
    /**
     * 在構造方法中, 通過調用父類構造創建MyKey
     * MyKey.class : 比較的對象
     * true : 創建這個對象
     */
    public MySort() {
        super(MyKey.class, true);
    }
    
    /**
     * 自定義排序方法
     * 傳入的比較對象為 map 輸出的key
     * 
     * 年相同比較月, 月相同, 溫度降序
     */
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        MyKey key1 = (MyKey) a;
        MyKey key2 = (MyKey) b;
        
        int r1 = Integer.compare(key1.getYear(), key2.getYear());
        if (r1 == 0) {
            int r2 = Integer.compare(key1.getMonth(), key2.getMonth());
            
            if (r2 == 0) {
                // 溫度降序
                return - Double.compare(key1.getHot(), key2.getHot());
            }else {
                return r2;
            }
        }
        return r1;
    }
    
}

3, group

package com.wenbronk.weather;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

/**
 * 自定義分組
 * @author root
 *
 */
public class MyGroup extends WritableComparator {

    public MyGroup() {
        super(MyKey.class, true);
    }
    
    /**
     * 年, 月相同, 則為一組
     */
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        MyKey key1 = (MyKey) a;
        MyKey key2 = (MyKey) b;
        
        int r1 = Integer.compare(key1.getYear(), key2.getYear());
        if (r1 == 0) {
            return Integer.compare(key1.getMonth(), key2.getMonth());
        }
        return r1;
    }
    
}

4, parditon

package com.wenbronk.weather;

import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

/**
 * 自定義partition, 保證一年一個reducer進行處理
 * 從map接收值
 * @author root
 *
 */
public class MyPartition extends HashPartitioner<MyKey, DoubleWritable> {

    /**
     * maptask每輸出一個數據, 調用一次此方法
     * 執行時間越短越好
     * 年的數量是確定的, 可以傳遞reduceTask數量, 在配置文件可設置, 在程序執行時也可設置
     * 
     */
    @Override
    public int getPartition(MyKey key, DoubleWritable value, int numReduceTasks) {
        // 減去最小的, 更精確
        return (key.getYear() - 1949) % numReduceTasks;
    }
    
}

5, 執行類

package com.wenbronk.weather;

import java.io.IOException;
import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 執行mapreduce 統計每年溫度的前三個
 * 
 * @author wenbronk
 *
 */
public class RunMapReduce {

    public static void main(String[] args) throws Exception {
        // 初始化時加載src或classpath下所有的配置文件
        Configuration configuration = new Configuration();

        // 本地執行
         configuration.set("fs.default", "hdfs://wenbronk.hdfs.com:8020 ");
         configuration.set("yarn.resourcemanager", "hdfs://192.168.208.106");

        // 服務器執行
//        configuration.set("mapred.jar", "?C:/Users/wenbr/Desktop/weather.jar");
//        configuration.set("mapred.jar", "E:\\sxt\\target\\weather.jar");
//        configuration.set("mapreduce.app-submission.cross-platform", "true");
//        
//        configuration.set("mapreduce.framework.name", "yarn"); 
//        configuration.set("yarn.resourcemanager.address", "192.168.208.106:"+8030);
//        configuration.set("yarn.resourcemanager.scheduler.address", "192.168.208.106:"+8032);

        // 得到執行的任務
        Job job = Job.getInstance();
        // 入口類
        job.setJarByClass(RunMapReduce.class);

        // job名字
        job.setJobName("weather");

        // job執行是map執行的類
        job.setMapperClass(WeatherMapper.class);
        job.setReducerClass(WeatherReduce.class);
        job.setMapOutputKeyClass(MyKey.class);
        job.setMapOutputValueClass(DoubleWritable.class);

        
        // 使用自定義的排序, 分組
        job.setPartitionerClass(MyPartition.class);
        job.setSortComparatorClass(MySort.class);
        job.setGroupingComparatorClass(MyGroup.class);
//        job.setJar("E:\\sxt\\target\\weather.jar");
        
        //設置 分區數量
        job.setNumReduceTasks(3);
        
        // **** 使用插件上傳data.txt到hdfs/root/usr/data.txt

        //****使得左邊為key, 右邊為value, 此類默認為  "\t" 可以自定義
        // 或者  config.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator", "\t");
        job.setInputFormatClass(KeyValueTextInputFormat.class);
        
        // 使用文件
        FileInputFormat.addInputPath(job, new Path("E:\\sxt\\1-MapReduce\\data\\weather.txt"));
//        FileInputFormat.addInputPath(job, new Path("/root/usr/weather.txt"));

        // 使用一個不存在的目錄進行
        Path path = new Path("/root/usr/weather");
        // 如果存在刪除
        FileSystem fs = FileSystem.get(configuration);
        if (fs.exists(path)) {
            fs.delete(path, true);
        }

        // 輸出
        FileOutputFormat.setOutputPath(job, path);

        boolean forCompletion = job.waitForCompletion(true);

        if (forCompletion) {
            System.out.println("success");
        }
    }

    /**
     * key: 將 LongWritalbe 改成 Text類型的
     * 
     * 將輸入更改為需要的 key, value, mapper所做的事情
     * 
     * @author wenbronk
     */
    static class WeatherMapper extends Mapper<Text, Text, MyKey, DoubleWritable> {
        /**
         * 轉換字符串為日期對象
         */
        DateFormat formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

        /**
         * 將鍵值取出來, 封裝為key 每行第一個分隔符"\t"左側為key, 右側有value, 傳遞過來的數據已經切割好了
         */
        @Override
        protected void map(Text key, Text value, Mapper<Text, Text, MyKey, DoubleWritable>.Context context)
                throws IOException, InterruptedException {
            try {
                Date date = formatter.parse(key.toString());
                Calendar calendar = Calendar.getInstance();
                calendar.setTime(date);
                int year = calendar.get(Calendar.YEAR);
                int month = calendar.get(Calendar.MONTH);

                double hot = Double.parseDouble(value.toString().substring(0, value.toString().lastIndexOf("c")));

                MyKey mykey = new MyKey();
                mykey.setYear(year);
                mykey.setMonth(month);
                mykey.setHot(hot);

                context.write(mykey, new DoubleWritable(hot));
            } catch (ParseException e) {
                e.printStackTrace();
            }
        }
    }

    /**
     * 經過partition, 分組, 排序, 傳遞數據給reducer 需要自定義partition, 保證一年一個reduce 自定義排序,
     * 保證按照年, 月, 溫度 自定義分組, 年月相同, 一個組
     * 傳進來的溫度, 為已經排好序的
     * @author root
     */
    static class WeatherReduce extends Reducer<MyKey, DoubleWritable, Text, NullWritable> {
        NullWritable nullWritable = NullWritable.get();
        @Override
        protected void reduce(MyKey arg0, Iterable<DoubleWritable> arg1,
                Reducer<MyKey, DoubleWritable, Text, NullWritable>.Context arg2)
                throws IOException, InterruptedException {

            int i = 0;
            for (DoubleWritable doubleWritable : arg1) {
                i++;
                String msg = arg0.getYear() + "\t" + arg0.getMonth() + "\t" + doubleWritable.get();
                // key中已經包含需要的結果了
                arg2.write(new Text(msg), NullWritable.get());
                // 每個月的前三個
                if (i == 3) {
                    break;
                }
            }

        }
    }

}

初始文檔

1949-10-01 14:21:02    34c
1949-10-02 14:01:02    36c
1950-01-01 11:21:02    32c
1950-10-01 12:21:02    37c
1951-12-01 12:21:02    23c
1950-10-02 12:21:02    41c
1950-10-03 12:21:02    27c
1951-07-01 12:21:02    45c
1951-07-02 12:21:02    46c
1951-07-03 12:21:03    47c

系列來自尚學堂視頻

18-hadoop-weather案例

ping ide exc 所有 void 每年 [] exce framework weather案例, 簡單分析每年的前三個月的最高溫即可, 使用自定義的分組和排序 1, MyKey, 因為對溫度進行分組, 排序, pardition操作, 所以默認的字典順序不能滿足需

18 11 14 案例下載檔案後端編寫

一個簡單的檔案下載器 import socket def main(): # 1建立套接字 tcp_socket = socket.socket(socket.AF_INET,socket.SOCK_STREAM) # 2獲取伺服器的 ip port

hadoop 天氣案例

對下面一組氣溫資料進行處理，得到每個月份最高的兩個氣溫值 2018-12-12 14:30 25c2018-12-12 15:30 26c2017-12-12 12:30 36c2019-01-01 14:30 22c2018-05-05 15:30 26c2018-05-26 15:30 37c2018-

Hadoop-HBASE案例分析-Hadoop學習筆記<二>

HBase在實際問題中的應用：當資料需要隨機讀寫應用，或者高併發操作（大資料多次操作），或者當資料結構簡單，但是量大（非關係型需要大量應用join操作） HBase對關係型查詢，如join等比較難操作關鍵要設計Rowkey，可加快查詢常用語言有Java, thrift引用其他語言操作在rowk

運營商在VMware vSphere、vSAN上執行Hadoop的案例剖析

【編者 Peter Ye 按】2018-01-22在微信公眾號“樂生活與愛IT”上，發表《vSA

Hadoop MapReduce案例word count本地環境執行時遇到的一些問題

問題一載入不到主類原因：我一開始建立的是Map/Reduce Project, 它會直接去我本地安裝的hadoop裡面尋找相應的jar包。但是由於我一開始將hadoop放在D:\Program Files資料夾下，應為該路徑中間有個空格，所以沒有找到相應的jar包。解

Hadoop經典案例Spark實現（一）——通過採集的氣象資料分析每年的最高溫度

1、原始資料分析0067011990999991950051507004888888889999999N9+00001+99999999999999999999990067011990999991950051512004888888889999999N9+00221+9

Hadoop入門案例全排序之TotalOrderPartitioner工具類+自動取樣

程式碼 package com.myhadoop.mapreduce.test; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache

大資料（hadoop-mapreduce案例講解）

package com.vip; import java.io.IOException; import java.util

大資料（hadoop-flume案例講解）

a2.cnf #定義agent名稱，source，channel，sink的名稱 #a1就是我們給agent起的名字，

Hadoop DistributedCache使用案例

oop 公司 ado tail detail int ted http ace 背景公司數據處理具有兩個計算框架，單機框架和MR框架。眼下我已經抽象出一套API interface, 供業務計算開發者使用。並分別在兩個計算框架下實現了API的運行調度。應用開發者有時

Hadoop單點部署與案例開發（微博用戶數據分析）

環境搭建 hadoop 數據分析微博用戶一、環境搭建1、Hadoop運行環境搭建1.1 安裝虛擬機（1）下載並安裝VMware虛擬機軟件。（2）創建虛擬機，實驗環境虛擬機配置如下圖所示。（3）安裝Ubuntu系統，安裝結果如下圖所示。1.2 配置JDK環境下載並安裝JDK，安裝結束後需對

Hadoop學習筆記—18.Sqoop框架學習

max lec sql數據庫 creat rec apt 成功不同的 mysql數據庫一、Sqoop基礎：連接關系型數據庫與Hadoop的橋梁 1.1 Sqoop的基本概念　　　　Hadoop正成為企業用於大數據分析的最熱門選擇，但想將你的數據移植過去並不容易。Apa

Django-website 程序案例系列-18 多表跨表操作優化

query n-n none plain pro 三種 wrap 減少緩存詳解Django的 select_related 和 prefetch_related 函數對 QuerySet 查詢的優化在數據庫有外鍵的時候，使用 select_related() 和

10.15 iptables filter表案例 10.16/10.17/10.18 iptable

def tab 1.0 轉發規則 cto 操作 process tin mes 10.15 iptables filter表案例 10.16/10.17/10.18 iptables nat表應用 A機器有兩塊網卡ens33 192.168.15.132 ; ens

Hadoop家族學習路線、實踐案例

detail 代碼聯系 www gpo roadmap top a-z hcatalog 作者：Han Hsiao鏈接：https://www.zhihu.com/question/19795366/answer/24524910來源：知乎著作權歸作者所有。商業轉載請聯系

hadoop大數據處理平臺與案例

數據做的 display 生活計算 hadoop 二次開發 spl 解決方案大數據可以說是從搜索引擎誕生之處就有了，我們熟悉的搜索引擎，如百度搜索引擎、360搜索引擎等可以說是大數據技處理技術的最早的也是比較基礎的一種應用。大概在2015年大數據都還不是非常火爆，20

10.15 iptables filter表案例 10.16/10.17/10.18 iptables nat表應用

restart user recent 不可 routing hat col back NPU 10.15 iptables filter 表小案列 -需要把80端口、22端口、21端口放行，22端口指定一個ip段，只有這個ip段的ip訪問的時候才可以訪問到，其他拒絕，這個

Hadoop二次開發項目案例方案匯總

Hadoop二次開發大數據Hadoop應用開發技術正可謂如火如荼推進中，以為大數據已經不僅僅是局限在互聯網領域，而是已經被上升到了國家戰略的高度層面。大數據正在深刻影響和改變我們的日常生活和工作方式。Hadoop應用開發太過偏底層，難度之大真不是我們一般人所能夠理解的。有的人會說，不都是倒騰代碼嗎？有什麽難的

18-hadoop-weather案例

相關推薦