使用bulkload的方式將資料直接生成HFile格式時報錯異常問題

阿新 • • 發佈：2021-03-31

HBase與MapReduce的整合中使用bulkload的方式將資料直接生成HFile格式時報錯

報錯時程式碼

BulkLoadMap

package com.kami.demo10;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

/**
 * @version v 1.0
 * @Author kami
 * @Date 2019/12/19
 */
public class BulkLoadMap extends Configured implements Tool {

    //bulkLoad只寫一個map程式碼即可
    //將HDFS資料轉化成Hfile
    public static class BulkLoadData extends Mapper<LongWritable, Text, ImmutableBytesWritable, Put> {
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String[] sps = value.toString().split(" ");
            String rowkey = sps[0];
            String name = sps[1];
            String age = sps[2];
            Put put = new Put(rowkey.getBytes());
            put.addColumn("f1".getBytes(), "name".getBytes(), name.getBytes());
            put.addColumn("f1".getBytes(), "age".getBytes(), age.getBytes());
            context.write(new ImmutableBytesWritable(rowkey.getBytes()), put);
        }
    }

    @Override
    public int run(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("hbase.zookeeper.quorum", "node01:2181,node02:2181,node03:2183");

        Connection connection = ConnectionFactory.createConnection(conf);
        Table table = connection.getTable(TableName.valueOf("myuser2"));

        Job job = Job.getInstance(conf, "rua");
        job.setJarByClass(BulkLoadMap.class);
        job.setMapperClass(BulkLoadData.class);

        job.setOutputFormatClass(HFileOutputFormat2.class);
        HFileOutputFormat2.configureIncrementalLoad(job, table, connection.getRegionLocator(TableName.valueOf("myuser2")));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://node01:8020/evaHfile"));
        //資料輸入型別 文字型別
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path("hdfs://node01:8020/rua.txt"));

        //資料輸出型別
        job.setMapOutputKeyClass(ImmutableBytesWritable.class);
        job.setMapOutputValueClass(Put.class);
        
        return job.waitForCompletion(true) ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        int run = ToolRunner.run(new Configuration(), new BulkLoadMap(), args);
        System.out.println(run);
    }
}

報錯異常現象及原因

19/12/19 19:48:47 WARN mapred.LocalJobRunner: job_local244116549_0001
java.lang.ClassCastException: org.apache.hadoop.hbase.client.Put cannot be cast to org.apache.hadoop.hbase.KeyValue
at org.apache.hadoop.hbase.mapreduce.KeyValueSortReducer.reduce(KeyValueSortReducer.java:43)
at org.apache.hadoop.hbase.mapreduce.KeyValueSortReducer.reduce(KeyValueSortReducer.java:36)
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:164)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:610)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:444)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:449)

發生報錯 java.lang.ClassCastException: org.apache.hadoop.hbase.client.Put cannot be cast to org.apache.hadoop.hbase.KeyValue

經過檢查發現給map設定資料輸出型別的設定放在了HFileOutputFormat2.configureIncrementalLoad之後，在Dirver的這段程式碼之前要將job的輸入路徑,輸出路徑,輸出資料型別要先設定好,如果沒有設定好輸出型別,就會爆出警告,且沒有結果資料輸出

解決方法

將map的資料輸出型別的程式碼移動到HFileOutputFormat2的配置程式碼之前，問題解決

@Override
    public int run(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("hbase.zookeeper.quorum", "node01:2181,node02:2181,node03:2183");

        Connection connection = ConnectionFactory.createConnection(conf);
        Table table = connection.getTable(TableName.valueOf("myuser2"));

        Job job = Job.getInstance(conf, "rua");
        job.setJarByClass(BulkLoadMap.class);
        job.setMapperClass(BulkLoadData.class);

        //資料輸出型別
        job.setMapOutputKeyClass(ImmutableBytesWritable.class);
        job.setMapOutputValueClass(Put.class);

        job.setOutputFormatClass(HFileOutputFormat2.class);
        HFileOutputFormat2.configureIncrementalLoad(job, table, connection.getRegionLocator(TableName.valueOf("myuser2")));

        FileOutputFormat.setOutputPath(job, new Path("hdfs://node01:8020/evaHfile"));

        //資料輸入型別 文字型別
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path("hdfs://node01:8020/rua.txt"));

        return job.waitForCompletion(true) ? 0 : 1;
    }

使用bulkload的方式將資料直接生成HFile格式時報錯異常問題

HBase與MapReduce的整合中使用bulkload的方式將資料直接生成HFile格式時報錯報錯時程式碼

Python實現將MySQL資料庫表中的資料匯出生成csv格式檔案的方法

本文例項講述了Python實現將MySQL資料庫表中的資料匯出生成csv格式檔案的方法。分享給大家供大家參考，具體如下：

python3將資料轉成json格式

以clickhouse資料庫的資料為例 python輸出的原始資料樣: (\'JK\', \'M\', datetime.datetime(2020, 9, 8, 15, 56, 30))

詳解Python中如何將資料儲存為json格式的檔案

一、基於json模組的儲存、讀取資料 names_writer.py import json names = [\'joker\',\'joe\',\'nacy\',\'timi\']

C#將資料轉換為指定格式的json字串

//實體類 class ReturnJson { public class Achievement { private int english; private int math; public int English { get => english; set => english = value; }

jackson封裝成將資料轉化為json格式的工具類（包括時間）

技術標籤：java 首先要引入jackson依賴  <dependency> <groupId>com.fasterxml.jackson.core</groupId>

Hadoop Mapper 階段將資料直接從 HDFS 匯入 Hbase

資料來源格式如下： 20130512 1 -1 -1 13802 1 2013-05-12 07:26:22 20130512 1 -1 -1 13802 1 2013-05-12 11:18:24

Java將資料生成XML檔案並進行壓縮成GZ格式

技術標籤：【XML】javaxmlgzipxstream 近期和PC端對接介面，在線上環境經常出現PC端介面拉取資料時後臺負載高的情況，為了解決這個問題，我們將介面轉換成xml檔案格式，每當PC客戶端啟動時會拉取服務端最新的xml

將資料集製作成VOC資料集格式的例項

在做目標檢測任務時，若使用Github已復現的論文時，需首先將自己的資料集轉化為VOC資料集的格式，因為論文作者使用的是公開資料集VOC 2007、VOC2012、COCO等型別資料集做方法驗證與比對。

matlab-將.dat資料自動生成excel檔案

clc clear all load(‘made2_tx2_tc11_aclr.mat’, ‘result’) Made=[2 2 ]’; tx=[2 2 ]’; CarrierConf=[11111,1001]’; data = [Made,tx,CarrierConf]; [m, n] = size(data); data_cell = mat2cell(dat