MR讀Hbase資料，寫入到Mysql(HBase->Mysql)

阿新 • • 發佈：2018-12-25

首先看一下Hbase的資料，本系統將Hbase放入mysql
首先看一下hbase表結構
$'dianxin:phone', {NAME => 'info', BLOOMFILTER => 'ROW', VERSIONS => ' true1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE =><div class=$

'0'}1 row(s) in 9.9800 seconds" referrerPolicy="no-referrer">

在這裡插入圖片描述

需求：根據使用者在hbase的通話記錄，求出每個使用者每個月總共通話時間，放入mysql中

第一步、建立mapper端

package phoneXM;

import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;

import java.io.IOException;

public class PhoneMapper extends TableMapper<Text, Text> {

    @Override
    protected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {

        //將fruit的name和color提取出來，相當於將每一行資料提取出來放入put中
        Put put = new Put(key.get());
//        Get get = new Get();
        //遍歷行
        String rowkey = new String(key.get());
        String name = "";
        String phone = "";
        String name2 = "";
        String phone2 = "";
        String time = "";
        String sum = "";
        for (Cell cell :
                value.rawCells()) {
            if ("info".equals(Bytes.toString(CellUtil.cloneFamily(cell)))) {
                /// 添 加 克 隆 列 ：name
                if ("name".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                    //將該列 cell 加入到 put 物件中
                    name = Bytes.toString(CellUtil.cloneValue(cell));
                } else if ("phone".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                    //向該列 cell 加入到 put 物件中
                    phone = Bytes.toString(CellUtil.cloneValue(cell));
                }else if ("nameTo".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                    //向該列 cell 加入到 put 物件中
                    name2 = Bytes.toString(CellUtil.cloneValue(cell));
                }else if ("phoneTo".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                    //向該列 cell 加入到 put 物件中
                    phone2 = Bytes.toString(CellUtil.cloneValue(cell));
                }else if ("time".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                    //向該列 cell 加入到 put 物件中
                    time = Bytes.toString(CellUtil.cloneValue(cell));
                }else if ("sum".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))) {
                    //向該列 cell 加入到 put 物件中
                    sum = Bytes.toString(CellUtil.cloneValue(cell));
                }

            }
        }
//將從 fruit 讀取到的每行資料寫入到 context 中作為 map 的輸出
        String info = name+"-"+name2+"-"+phone+"-"+phone2+"-"+sum;
        System.out.println(rowkey);
        System.out.println(info);
        // 01_手機號_yyyyMMddhhmmss_1
        String[] split = rowkey.split("_");
        // 擷取電話號碼
        String phoneNum = split[1];
        // 拼接key
        String dataCallKe = phoneNum+"_"+split[2].substring(0,6);
        // 拼接value
        String keys = phoneNum+dataCallKe;
         //輸出到檔案

        context.write(new Text(keys), new Text(info));

    }
}

第二步、建立Reduce端程式碼

package phoneXM;

import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class PhoneReducer extends Reducer<Text, Text, UserInfo,NullWritable> {
    private UserInfo userInfo = new UserInfo();
   // private UserInfoDBWritable userInfoDBWritable = null;
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        //獲取手機號
       // String phone = key.toString().split("_")[1];
        //拼裝資訊
        Integer longTime = 0;
        for(Text text:values){
            String time = text.toString().split("-")[4];
            longTime += Integer.parseInt(time);
        }
        Text tt = new Text(longTime+"");
        System.out.println(key.toString());
        String phone = key.toString().split("_")[0];
        String month = key.toString().split("_")[1];
        // id，
        userInfo.setPhone(phone);

        // account
        userInfo.setMonth(month);

        // name
        userInfo.setSumTime(longTime+"");



        // 寫入到db,放在key
       // userInfoDBWritable = new UserInfoDBWritable(userInfo);
        context.write(userInfo , null);

        //context.write(key,tt);
    }
}

第三步、Driver端程式碼

package phoneXM;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import phoneXM.PhoneMapper;
import phoneXM.PhoneReducer;

import java.io.FileOutputStream;
import java.io.IOException;

//將 fruit 表中的一部分資料，通過 MR 遷入到 fruit_mr 表中。
public class Driver  extends Configured implements Tool {
    public static void main(String[] args) throws Exception{
        Configuration configuration = HBaseConfiguration.create();
        configuration.set("hbase.zookeeper.quorum","es1,es2,es3");
        configuration.set("hbase.zookeeper.property.clientport","2181");
        int re = ToolRunner.run(configuration,new Driver(),args);
        System.exit(re);
    }

    public int run(String[] args) throws Exception {
        // 得到Conf
        Configuration configuration = this.getConf();
        //資料庫配置
        DBConfiguration.configureDB(configuration, "com.mysql.jdbc.Driver","jdbc:mysql://192.168.244.162:3306/phone","root", "123456");

        Job job = Job.getInstance(configuration, "db info1");

        // 建立job任務
//        Job job = Job.getInstance(configuration,this.getClass().getSimpleName());
        job.setJarByClass(Driver.class);
        // 配置job

        Scan scan = new Scan();
        scan.setCacheBlocks(false);
        scan.setCaching(500);

        // 設定Mapper
        TableMapReduceUtil.initTableMapperJob(
                "dianxin:phone", // 資料來源的表名
                scan, // scan掃描控制器
                PhoneMapper.class, // 設定Mapper類
                Text.class, // 設定Mapper輸入key型別
                Text.class, // 設定Mapper輸出value值型別
                job // 設定job
        );

        // 設定Reduce
        /*TableMapReduceUtil.initTableReducerJob(

                "hbase_mr", // 表名
                Test_reduce.class, // 設定reduce
                job
        );*/
        // 設定reduce數量，最少一個
        job.setNumReduceTasks(1);
        job.setReducerClass(PhoneReducer.class);
        job.setOutputKeyClass(UserInfo.class);
        job.setOutputValueClass(NullWritable.class);
        //FileOutputFormat.setOutputPath(job, new Path("D:\\Demo\\hadoop\\ouput\\out1"));
        DBOutputFormat.setOutput(job, "info1", "phone", "month", "sumTime");
        job.setOutputFormatClass(DBOutputFormat.class);
        boolean isSuccess = job.waitForCompletion(true);
        if(!isSuccess){
            throw  new IOException("Job running with error");
        }
        return isSuccess ? 0 : 1;
    }

}

工具類、UserInfo

package phoneXM;

import org.apache.hadoop.mapreduce.lib.db.DBWritable;

import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;

public class UserInfo implements DBWritable {
    //主要是把手機號，月份，通話總時間放入到mysql，所以把這3個封裝一個類
    private String phone;
    private String month;
    private String sumTime;

    public String getPhone() {
        return phone;
    }

    public void setPhone(String phone) {
        this.phone = phone;
    }

    public String getMonth() {
        return month;
    }

    public void setMonth(String month) {
        this.month = month;
    }

    public String getSumTime() {
        return sumTime;
    }

    public void setSumTime(String sumTime) {
        this.sumTime = sumTime;
    }


    public void write(PreparedStatement statement) throws SQLException {
        statement.setString(1,this.getPhone());
        statement.setString(2,this.getMonth());
        statement.setString(3,this.getSumTime());
    }

    public void readFields(ResultSet resultSet) throws SQLException {

    }
}

測試

叢集Hbase開啟，執行程式碼，檢視資料庫表資訊
在這裡插入圖片描述
到此已經完了，大家可以去測試一下

MR讀Hbase資料，寫入到Mysql(HBase->Mysql)

首先看一下Hbase的資料，本系統將Hbase放入mysql 首先看一下hbase表結構需求：根據使用者在hbase的通話記錄，求出每個使用者每個月總共通話時間，放入mysql中第一步、建立mapper端 package phoneXM; import org.a

PCL學習筆記——讀入txt格式點雲資料，寫入到PCD檔案中

讀入txt格式點雲資料，寫入PCD檔案中 // An highlighted block // pointclouds_octree.cpp: 定義控制檯應用程式的入口點。 // #include "stdafx.h" #include<iostream> #include

Spark Streaming接收kafka資料，輸出到HBase

需求 Kafka + SparkStreaming + SparkSQL + HBase 輸出TOP5的排名結果排名作為Rowkey，word和count作為Column 實現建立kafka生產者模擬隨機生產資料 object produ

讀EXCEL資料，通過百度NLP分析情感傾向，寫入xls

# -*- coding: utf-8 -*- """ Created on Wed Oct 25 17:40:57 2017 @author: Administrator """ import pandas as pd from aip import AipNlp # 定

使用flume從kafka中的topic取得資料，然後存入hbase和es中

接上一篇部落格，將資料進行處理！！！！！！！！！！！！#HBASEtier2.sources = HbaseAuditSource HbaseRunSource HdfsAuditSources HdfsRunSources HiveAuditSources HiveRun

C語言檔案讀寫操作，寫入資料到檔案

很早寫的在linux系統下的檔案讀寫操作，寫入資料到檔案，很時候初學者學習 #include <stdio.h> int writeInfoToFile(char *strFile) { int age, i; char name[10]; FI

C語言檔案大小，分配空間，讀入檔案，寫入檔案，實現複製的功能

首先通過兩種方法得到檔案的大小，位元組為單位，根據這個大小使用malloc分配固定的空間buffer，二進位制流讀入檔案，把二進位制流寫入buffer中，buffer輸出寫入到新的檔案。原始檔1.txt，輸出檔案1.txt.txt 環境為Ubuntu 16.04，gcc #incl

大資料之hbase（五） --- 匯出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL資料通過MR匯入到Hbase表中

一、匯出Hbase的表文件到HDFS -------------------------------------------------------------------------- 1.複製hbase的jar檔案和metrices-core-xxx.jar檔案到

大資料之hbase（一） --- HBase介紹，特性，安裝部署，shell命令，client端與hbase的互動過程，程式設計API訪問hbase實現百萬寫入

一、HBase介紹 ---------------------------------------------- 1.基於hadoop的資料庫，具有分散式，可伸縮的大型資料儲存 2.用於對資料的隨機訪問，實時讀寫 3.巨大的表，十億行*百萬列

spark從mysql讀取資料（redis/mongdb/hbase等類似，換成各自RDD即可）

package com.ws.jdbc import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkCont

mysql中的資料匯入到hbase中，並關聯phoenix

1.在hbase上建立表： hbase>create 'ES','f1' 2.phoenix上建立表： jdbc:phoenix:es01> create table ES(ids varchar primary key ,"f1"."class_name" va

hbase 寫資料，存資料，讀資料的詳細過程

Client寫入 -> 存入MemStore，一直到MemStore滿 -> Flush成一個StoreFile，直至增長到一定閾值 -> 出發Compact合併操作 -> 多個StoreFile合併成一個StoreFile，同時進行版本合併和資料刪

從hbase表1中讀取資料，最終結果寫入到hbase表2 ，如何通過MapReduce實現？

需要一：將hbase中‘student’表中的info：name和info：age兩列資料取出並寫入到hbase中‘user’表中的basic：XM和basic：NL class ReadStudentMapper extends Table

HBase建表高階屬性，hbase應用案例看行鍵設計，HBase和mapreduce結合，從Hbase中讀取資料、分析，寫入hdfs，從hdfs中讀取資料寫入Hbase，協處理器和二級索引

1. Hbase高階應用 1.1建表高階屬性下面幾個shell 命令在hbase操作中可以起到很到的作用，且主要體現在建表的過程中，看下面幾個create 屬性 1、 BLOOMFILTER 預設是NONE 是否使用布隆過慮及使用何種方式布隆

Spark Stream整合flum和kafka，資料儲存在HBASE上，分析後存入資料庫

開發環境：Hadoop+HBASE+Phoenix+flum+kafka+spark+MySQL 預設配置好了Hadoop的開發環境，並且已經安裝好HBASE等元件。下面通過一個簡單的案例進行整合：這是整個工作的流程圖：第一步：獲取資料來源　　由於外部埋點獲取資源較為繁瑣

Python基礎（六）--- Python爬蟲，Python整合Hbase，PythonWorldCount，Spark資料分析生成分析圖表

一、Python爬蟲 --------------------------------------------------- 1.測試 # -*- encoding=utf-8 -*- import urllib.request #

面對海量資料儲存，如何保證HBase叢集的高效以及穩定

內容來源：2018 年 09 月 15 日，平安科技資料平臺部大資料高階工程師鄧傑在“中國HBase技術社群第五屆MeetUp ——HBase應用與發展”進行《HBase應用與實踐》的演講分享。IT 大咖說作為獨家視訊合作方，經主辦方和講者審閱授權釋出。閱讀

人工智慧的底層構架，認識HBase資料模型

人工智慧作為當前最熱門的技術，其根本上離不開大資料的支援。如果把人工智慧比喻成一個神經網路，那麼資料則是在這個神經網路中用來傳遞資訊的化學物質，沒有資訊傳遞的神經網路顯然不名一文，因此大資料扮演著人工智慧基石的角色。 Hadoop生態系統的HDFS和MapReduce分別為大資料提供了

學習筆記:從0開始學習大資料-9. MapReduce讀並寫Hbase資料

上節的MapReduce計算WordCount例子是從hdfs讀輸入檔案，計算結果也寫入hdfs MapReduce分散式計算的輸入輸出可以根據需要從hdfs或hbase讀取或寫入，如 A.讀hdfs-->寫hdfs B.讀hdfs-->寫hbase C.讀hbase--

使用MapReduce讀取HBase資料儲存到MySQL

Mapper讀取HBase資料 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.client

MR讀Hbase資料，寫入到Mysql(HBase->Mysql)

需求：根據使用者在hbase的通話記錄，求出每個使用者每個月總共通話時間，放入mysql中

第一步、建立mapper端

第二步、建立Reduce端程式碼

第三步、Driver端程式碼

工具類、UserInfo

測試

相關推薦