Hbase結合Mapreduce示例

阿新 • • 發佈：2019-02-10

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import 
 org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;

import 
 java.io.IOException;
import java.util.ArrayList;
import java.util.List;
/**
 * mapreduce操作hbase
 * @author wilson
 *
 */
public class HBaseMr {
    /**
     * 建立hbase配置
     */
    static Configuration config = null;
    static {
        config = HBaseConfiguration.create();
        config.set("hbase.zookeeper.quorum" 
, "192.168.10.71,192.168.10.72,192.168.10.73");
        config.set("hbase.zookeeper.property.clientPort", "2181");
    }
    /**
     * 表資訊
     */
    public static final String tableName = "word";//表名1
    public static final String colf = "content";//列族
    public static final String col = "info";//列
    public static final String tableName2 = "stat";//表名2
    /**
     * 初始化表結構，及其資料
     */
    public static void initTB() {
        HTable table=null;
        HBaseAdmin admin=null;
        try {
            admin = new HBaseAdmin(config);//建立表管理
            /*刪除表*/
            if (admin.tableExists(tableName)||admin.tableExists(tableName2)) {
                System.out.println("table is already exists!");
                admin.disableTable(tableName);
                admin.deleteTable(tableName);
                admin.disableTable(tableName2);
                admin.deleteTable(tableName2);
            }
            /*建立表*/
                HTableDescriptor desc = new HTableDescriptor(tableName);
                HColumnDescriptor family = new HColumnDescriptor(colf);
                desc.addFamily(family);
                admin.createTable(desc);
                HTableDescriptor desc2 = new HTableDescriptor(tableName2);
                HColumnDescriptor family2 = new HColumnDescriptor(colf);
                desc2.addFamily(family2);
                admin.createTable(desc2);
            /*插入資料*/
                table = new HTable(config,tableName);
                table.setAutoFlush(false);
                table.setWriteBufferSize(500);
                List<Put> lp = new ArrayList<Put>();
                Put p1 = new Put(Bytes.toBytes("1"));
                p1.add(colf.getBytes(), col.getBytes(), ("The Apache Hadoop software library is a framework").getBytes());
                lp.add(p1);
                Put p2 = new Put(Bytes.toBytes("2"));p2.add(colf.getBytes(),col.getBytes(),("The common utilities that support the other Hadoop modules").getBytes());
                lp.add(p2);
                Put p3 = new Put(Bytes.toBytes("3"));
                p3.add(colf.getBytes(), col.getBytes(),("Hadoop by reading the documentation").getBytes());
                lp.add(p3);
                Put p4 = new Put(Bytes.toBytes("4"));
                p4.add(colf.getBytes(), col.getBytes(),("Hadoop from the release page").getBytes());
                lp.add(p4);
                Put p5 = new Put(Bytes.toBytes("5"));
                p5.add(colf.getBytes(), col.getBytes(),("Hadoop on the mailing list").getBytes());
                lp.add(p5);
                table.put(lp);
                table.flushCommits();
                lp.clear();
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                if(table!=null){
                    table.close();
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
    /**
     * MyMapper 繼承 TableMapper
     * TableMapper<Text,IntWritable> 
     * Text:輸出的key型別，
     * IntWritable：輸出的value型別
     */
    public static class MyMapper extends TableMapper<Text, IntWritable> {
        private static IntWritable one = new IntWritable(1);
        private static Text word = new Text();
        @Override
        //輸入的型別為：key：rowKey； value：一行資料的結果集Result
        protected void map(ImmutableBytesWritable key, Result value,
                Context context) throws IOException, InterruptedException {
            //獲取一行資料中的colf：col
            String words = Bytes.toString(value.getValue(Bytes.toBytes(colf), Bytes.toBytes(col)));// 表裡面只有一個列族，所以我就直接獲取每一行的值
            //按空格分割
            String itr[] = words.toString().split(" ");
            //迴圈輸出word和1
            for (int i = 0; i < itr.length; i++) {
                word.set(itr[i]);
                context.write(word, one);
            }
        }
    }
    /**
     * MyReducer 繼承 TableReducer
     * TableReducer<Text,IntWritable> 
     * Text:輸入的key型別，
     * IntWritable：輸入的value型別，
     * ImmutableBytesWritable：輸出型別，表示rowkey的型別
     */
    public static class MyReducer extends
            TableReducer<Text, IntWritable, ImmutableBytesWritable> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values,
                Context context) throws IOException, InterruptedException {
            //對mapper的資料求和
            int sum = 0;
            for (IntWritable val : values) {//疊加
                sum += val.get();
            }
            // 建立put，設定rowkey為單詞
            Put put = new Put(Bytes.toBytes(key.toString()));
            // 封裝資料
            put.add(Bytes.toBytes(colf), Bytes.toBytes(col),Bytes.toBytes(String.valueOf(sum)));
            //寫到hbase,需要指定rowkey、put
            context.write(new ImmutableBytesWritable(Bytes.toBytes(key.toString())),put);
        }
    }

    public static void main(String[] args) throws IOException,
            ClassNotFoundException, InterruptedException {
        config.set("df.default.name", "hdfs://192.168.10.71:9000/");//設定hdfs的預設路徑
        config.set("hadoop.job.ugi", "hadoop,hadoop");//使用者名稱，組
        config.set("mapred.job.tracker", "192.168.10.71:9001");//設定jobtracker在哪
        //初始化表
        initTB();//初始化表
        //建立job
        Job job = new Job(config, "HBaseMr");//job
        job.setJarByClass(HBaseMr.class);//主類
        //建立scan
        Scan scan = new Scan();
        //可以指定查詢某一列
        scan.addColumn(Bytes.toBytes(colf), Bytes.toBytes(col));
        //建立查詢hbase的mapper，設定表名、scan、mapper類、mapper的輸出key、mapper的輸出value
        TableMapReduceUtil.initTableMapperJob(tableName, scan, MyMapper.class,Text.class, IntWritable.class, job);
        //建立寫入hbase的reducer，指定表名、reducer類、job
        TableMapReduceUtil.initTableReducerJob(tableName2, MyReducer.class, job);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

Hbase結合Mapreduce示例

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HCol

Hbase Mapreduce示例：全庫掃描(大量資料)

package com.hbase.mapreduce; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.util.ArrayList;

HBase建表高階屬性，hbase應用案例看行鍵設計，HBase和mapreduce結合，從Hbase中讀取資料、分析，寫入hdfs，從hdfs中讀取資料寫入Hbase，協處理器和二級索引

1. Hbase高階應用 1.1建表高階屬性下面幾個shell 命令在hbase操作中可以起到很到的作用，且主要體現在建表的過程中，看下面幾個create 屬性 1、 BLOOMFILTER 預設是NONE 是否使用布隆過慮及使用何種方式布隆

一個簡單的MapReduce示例（多個MapReduce任務處理）

.lib exceptio apr private util sum length reat lin 一、需求　　有一個列表，只有兩列：id、pro，記錄了id與pro的對應關系，但是在同一個id下，pro有可能是重復的。　　現在需要寫一個程序，統計一下每個id下有

【大數據系列】MapReduce示例好友推薦

trac [0 ont protect run task main orm pat package org.slp; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text;

基於HBase的MapReduce實現大量郵件信息統計分析

inittab 寫入 img implement system return dea 比較 tco 一：概述在大多數情況下，如果使用MapReduce進行batch處理，文件一般是存儲在HDFS上的，但這裏有個很重要的場景不能忽視，那就是對於大量的小文件的處理（此處小文件

hive 與 hbase 結合

next pos jobs maven int info XP .com .org 一、hive與hbase的結合Hive會經常和Hbase結合使用，把Hbase作為Hive的存儲路徑，所以Hive整合Hbase尤其重要。使用Hive讀取Hbase中的數據，可以使用HQL語

ViewPager pagerTitleStrip pagerTabStrip 解釋。pagerTabStrip 屬性方法。以及結合使用示例與程式碼

pagerTabStrip 相對於 pagerTitleStrip 有互動作用，功能也更加豐富 pagerTabStrip 的屬性和方法示例：示例原始碼：有 pagerTabStrip 和 pagerTitleStrip 的使用，pagerTitleStr

ElasticSearch與HBASE結合案例

建立 curl -XPOST 'http://192.168.0.131:9200/tv1' -d @tvcount.json 檢查 curl -XGET http://192.168.0.131:9200/tv1_se

轉：HBase Java簡單示例-2013年的

Hbase採用Java實現，原生客戶端也是Java實現，其他語言需要通過thritf介面服務間接訪問Hbase的資料。 Hbase作為大資料儲存資料庫，其寫能力非常強，加上Hbase本身就脫胎於Hadoop故和Hadoop的相容性極好，非常適合於儲存半規則資料(靈活、可擴充套件性強、大資料儲存)

ReactNative之結合具體示例來看RN中的的Timing動畫

今天繼續更新RN相關的部落格。上篇部落格詳細的聊了RN中關於Flex佈局的相關東西，具體請參見《ReactNative之參照具體示例來看RN中的FlexBox佈局》。本篇部落格繼續更新RN的動畫部分，部落格中的內容依然是依託於具體的示例來進行的。下方是官網對RN動畫的的一個綜述，意思就是說在RN的元件中V

openlayers3結合echarts3示例

<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>Ol3 popup</title&g

Hbase整合MapReduce兩個注意的地方

一、通過javaAPI插入資料到HBase時，HBase裡scan出來的資料亂碼，如下程式碼： Put put = new Put(Bytes.toBytes(key.get())); 我這裡的key是Map階段的輸入key，格式為LongWritable，插入資料後，Hbase

HBase的MapReduce呼叫

楔子學習瞭解HBase，使用系統環境是CentOS6.9，Hadoop等版本是CDH5.3.6 配置了Hadoop、HBase等環境變數，yarn可以直接使用。以下基於這些配置 1.1 檢視H

ReactNative之從“拉皮條”來看RN中的Spring動畫 ReactNative之結合具體示例來看RN中的的Timing動畫

上篇部落格我們聊了RN中關於Timing的動畫，詳情請參見於《ReactNative之結合具體示例來看RN中的的Timing動畫》本篇部落格我們將從一個“拉皮條”的一個動畫說起，然後來看一下RN中Spring動畫的使用方式以及具體效果。Spring從名字中不難看出是彈性彈簧的意思，也就是我們可以使用Sprin

【圖文解析】MapReduce 示例程式編寫及編碼規範

上一步，我們查看了 WordCount 這個 MapReduce 程式的原始碼編寫，可以得出幾點結論： 1、該程式有一個 main 方法，來啟動任務的執行，其中 job 物件就儲存了該程式執行的必要資訊，比如指定 Mapper 類和 Reducer 類 job.setM

hadoop用java API實現mapreduce示例

自定義資料型別bean package org.hadoop.total; import org.apache.hadoop.io.Writable; import java.io.DataInput; import java.io.DataOutput; import java.i

HBase與MapReduce整合操作

1、目的：將HBase中stu_info表中的name放到表user_info中 2、TestHbaseMapper： package com.zzw.hbase.mapreduce; import java.io.IOException; import org.apache.had

spark hive hbase 結合

spark hive hbase 結合業務需求，需要整合需要讀取hive資料匯入hbase中，一下是環境配置流程以及中間遇到的問題 1.spark讀hive 需要copy hive-site和hdfs-site 等配置檔案到專案資源包下 object hivesql {

flume 對日誌監控，和日誌資料正則清洗最後實時集中到hbase中的示例

今天學習了flume的簡單用法，順便思考了一下，對標準日誌格式的資料實時清洗和集中儲存今天介紹一下運用正則表示式對資料進行實時清洗，將資料儲存到hbase中，前面簡單的不分列的儲存，就直接貼程式碼1、運用flume的HBasesink--SimpleHbaseEventSer

Hbase結合Mapreduce示例

相關推薦