通過MapReduce把Hive表資料匯入到HBase

阿新 • • 發佈：2019-02-18

由於Hive查詢速度比較慢，進行了表分割槽使用Impala也是很滿意，所以為了公司業務展示，需要測試使用HBase的查詢速度怎麼樣，頭一件事就是把HIVE的資料匯入到HBase中，搜了半天也沒搜到到底該怎麼搞，也有說能用Sqoop的，可是沒找到資料，只好自己用MapReduce實現。

話不多說，邏輯很簡單，只是用了Map，直接上程式碼。

public class Hive2HBase {

    /**
     * Mapper
     */
    static class ImportMapper extends Mapper<LongWritable, Text, ImmutableBytesWritable 
, Put> {

        @Override
        public void map(LongWritable offset, Text value, Context context) {
            String[] splited = value.toString().split("\t");
            if (splited.length != 4)
                return;
            try {

                byte[] rowkey = Bytes.toBytes(splited[0 
]);// id作為rowkey

                Put put = new Put(rowkey);
                // 為了省事直接列名為log1...log4

                for (int j = 0; j < splited.length; j++) {
                    put.addColumn(Bytes.toBytes(HConfiguration.colFamily), Bytes.toBytes("log" + j),
                            Bytes.toBytes(splited[j]));
                }

                context.write(new 
 ImmutableBytesWritable(rowkey), put);

            } catch (NumberFormatException e) {
                System.out.println("出錯了" + e.getMessage());
            } catch (IOException e) {
                e.printStackTrace();
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }

    /**
     * Main
     * 
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {

        Configuration configuration = new Configuration();
        // 設定zookeeper
        configuration.set("hbase.zookeeper.quorum", HConfiguration.hbase_zookeeper_quorum);
        configuration.set("hbase.zookeeper.property.clientPort", "2181");
        // 設定hbase表名稱
        configuration.set(TableOutputFormat.OUTPUT_TABLE, HConfiguration.tableName);
        // 將該值改大，防止hbase超時退出
        configuration.set("dfs.client.socket-timeout", "180000");

        MRDriver myDriver = MRDriver.getInstance();

        try {
            //建立表
            myDriver.createTableIfExistDelete(HConfiguration.tableName, HConfiguration.colFamily);
        } catch (Exception e) {
            e.printStackTrace();
        }

        Job job = new Job(configuration, "HBaseBatchImport");

        job.setJarByClass(Hive2HBase.class);
        job.setMapperClass(ImportMapper.class);
        // 設定map的輸出，不設定reduce的輸出型別
        job.setMapOutputKeyClass(ImmutableBytesWritable.class);
        job.setMapOutputValueClass(Writeable.class);
        job.setNumReduceTasks(0);

        job.setInputFormatClass(TextInputFormat.class);
        // 不再設定輸出路徑，而是設定輸出格式型別
        job.setOutputFormatClass(TableOutputFormat.class);
        // hive表路徑
        FileInputFormat.setInputPaths(job, "hdfs://172.*.*.2:8022/user/hive/warehouse/sample_07");

        job.waitForCompletion(true);
    }
}

通過MapReduce把Hive表資料匯入到HBase

由於Hive查詢速度比較慢，進行了表分割槽使用Impala也是很滿意，所以為了公司業務展示，需要測試使用HBase的查詢速度怎麼樣，頭一件事就是把HIVE的資料匯入到HBase中，搜了半天也沒搜到到底該怎麼搞，也有說能用Sqoop的，可是沒找到資料，只好自己用M

Hive表資料匯入匯出的不同方式和自定義列分隔符

資料來源： hive> select * from test1; OK Tom 24.0 NanJing Nanjing University Jack

MapReduce將HDFS文字資料匯入HBase中

HBase本身提供了很多種資料匯入的方式，通常有兩種常用方式：使用HBase提供的TableOutputFormat，原理是通過一個Mapreduce作業將資料匯入HBase 另一種方式就是使用HBase原生Client API 本文就是示範如何通過M

通過hive表整合查詢hbase資料

大家知道，直接從hbase的讀取資料是一個比較繁鎖的過程，需要java程式碼或是spark 查詢通過Hive整合HBase,可以通過hive表查詢hbase資料，下面是測試過程 --建立hbase表 create "user","account","address","i

通過sqoop將MySQL資料庫中的資料匯入Hbase

從接觸到大資料到成功的實現一個功能期間走了不少彎路也踩了不少坑，這裡作為我的學習筆記也可以作為小白們的前車之鑑，少走彎路，有不正確之處，望指出環境準備： hadoop、hbase、sqoop、mys

hive over hbase方式將文字庫資料匯入hbase

1，建立hbase表Corpus >> create 'Corpus','CF' 2，建立hive->hbase外表logic_Corpus,並對應hbase中的Corpus表 >> CREATE EXTERNAL TABLE logic_Co

從Navicat匯出oracle建表語句，應用sqoop將oracle中的表資料匯入到hive

ORACLE庫的操作首先選擇navicat作為這個檔案的工具，作為資料庫表結構的匯入和匯出工具。匯出的時候會連結構和資料都匯出來，會形成一個sql檔案也可以只倒檢視或者表都可以的。但是以匯出的這個檔案匯入的時候

往HIVE表中匯入匯出資料的幾種方式詳解

一：往HIVE表中匯入匯出資料語法結構:[ ]帶括號的表示可選擇欄位LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTOTABLE tablename

SAP ABAP: 把內表資料以excel或csv格式，通過前臺或者後臺的方式上傳至FTP伺服器

今天接到一個FTP的需求，就是每天晚上把當天某個報表的資料自動儲存excel上傳到FTP伺服器。 SAP已經有現成的FTP函式使用，可以通過函式的方式來實現，實現前先準備一些資料： User：登入FTP的使用者名稱 Password：登入FTP的密碼 Host：FTP 的IP地址 Path: FTP的檔案存放

Hive命令之三：hive的資料匯入匯出

Hive 資料的匯入匯出：一 Hive資料匯出 1、匯出資料到本地檔案系統： insert overwrite local directory '/software/data/data1' select * f

Hive DML(資料匯入匯出)

DML DML:Data Manipulation Language(資料管理語言) 載入資料到表語法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (part

Spring-Boot實現Excel表資料匯入資料庫

首先說一下用的工具:jdk8,mysql,mybatis,postman測試, 這次主要是實現歷史學生資訊匯入功能,要求只是提示錯誤資訊,將沒錯的匯入; 好了,貼程式碼 pom匯入依賴,貌似這個poi工具類不向下相容 <dependency> <grou

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

原文連結：https://mp.csdn.net/postedit/82423831 使用Spark進行資料分析和計算早已成趨勢，你是否關注過讀取一張Hive表時Task數為什麼是那麼多呢?它跟什麼有關係呢? 最近剛好碰到這個問題，而之前對此有些模糊，所以做了些整理，希望大家拍磚探討

Sql2012如何將遠端伺服器資料庫及表、表結構、表資料匯入本地資料庫

1、第一步，在本地資料庫中建一個與伺服器同名的資料庫 2、第二步，右鍵源資料庫，任務》匯出資料，彈出匯入匯出提示框，點下一步繼續 3、遠端資料庫操作，確認伺服器名稱（伺服器地址）、身份驗證（輸入使用者名稱、密碼）、選擇需要匯出的源資料庫，點下一步繼續 4、本地目標伺服器

Mysql 資料匯入 Hbase

目錄一、前言一、前言在大資料專案中需要做資料遷移時，我們第一時間總會想到sqoop。sqoop是apache 旗下一款“Hadoop 和關係資料庫伺服器之間傳送資料”的工具，

SparkSql將資料來源Hive中資料匯入MySql例項

背景：能看到這篇部落格的夥計兒，應該是充分理解了[理想是豐滿的現實是骨感] 這句名言了吧。為啥子這麼說呢，那就是不就是個SparkSql從hive匯入到mysql嗎有什麼技術含量，但是呢不斷地踩坑ing填坑ing。廢話不多說，直接上硬菜。 package co

IMPORT FROM 表資料匯入

TABLE LOCK Can be used for faster data loading for column store tables. 可以加快列儲存表資料的匯入 It is recommended to specify this option carefully as it incurs

將sqlserver的資料匯入hbase中

將sqlserver的資料匯入hbase中 1.解壓sqoop-sqlserver-1.0.tar.gz，並改名（可以不改） tar -zxvf sqoop- sql

php 爬蟲的簡單實現，獲取整個頁面，再把頁面的資料匯入本地的檔案當中

$curlobj = curl_init(); //建立一個curl 的資源，下面要用的 curl_setopt($curlobj,CURLOPT_URL,"http://www.baidu.com

flume將資料匯入hbase

1 將hbase的lib目錄下jar拷貝到flume的lib目錄下；2 在hbase中建立儲存資料的表hbase(main):002:0> create 'test_idoall_org','uid','name'3 建立flume配置檔案 vi.confa1.sour

通過MapReduce把Hive表資料匯入到HBase

相關推薦