hadoop mapreduce讀取orcfile的java程式碼示例

阿新 • • 發佈：2019-01-26

orcfile在hive 0.11版本後提供支援，orcfile相比rcfile具有更高的資料壓縮比，在不使用任何壓縮演算法，僅僅使用orcfile儲存格式，資料量大小就能縮小一半以上。

下面以hive 0.13版本為例，列舉了mapreduce讀取orcfile的java示例程式碼：

需要引入的包：hive-common-0.13.1.jar、hive-exec-0.13.1.jar

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.ql.io.orc.OrcNewInputFormat;
import org.apache.hadoop.hive.ql.io.orc.OrcStruct;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.hive.serde2.objectinspector.StructField;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfo;
import org.apache.hadoop.hive.serde2.typeinfo.TypeInfoUtils;

main函式關鍵程式碼：

public static void main(String[] args) throws IOException,
URISyntaxException, InterruptedException, ClassNotFoundException {

Configuration conf = new Configuration();

Job job = new Job(conf);

              job.setInputFormatClass(OrcNewInputFormat.class);
             FileInputFormat.addInputPath(job, new Path(inputPath));
            job.setMapperClass(ExtractorMapper.class);
           System.exit(job.waitForCompletion(true) ? 0 : 1);

}

map實現函式關鍵程式碼：

private static class ExtractorMapper extends
Mapper {

private static final String SCHEMA = "struct<column_name1:string,column_name2:string>"

  protected void map(
    NullWritable key,
    Writable value,
    Mapper.Context context)
    throws IOException, InterruptedException {
             OrcStruct struct = (OrcStruct)value;
             TypeInfo typeInfo = TypeInfoUtils.getTypeInfoFromTypeString(SCHEMA);

StructObjectInspector inspector = (StructObjectInspector)
OrcStruct.createObjectInspector(typeInfo);

            StringBuffer outputKey = new StringBuffer();
            outputKey.append(inspector.getStructFieldData(struct, inspector.getStructFieldRef("column_name1")).toString());
             outputKey.append(TAB);
             outputKey.append(inspector.getStructFieldData(struct, inspector.getStructFieldRef("column_name2")).toString());
             System.out.println(outputKey.toString());

}

hadoop mapreduce讀取orcfile的java程式碼示例

hadoop mapreduce讀取orcfile的java程式碼示例

Hadoop MapReduce 官方教程 -- WordCount示例

hadoop MapReduce java示例

Hadoop mapreduce 入門示例詳解

Pytorch自定義網路結構+讀取自己資料+自定義Loss 全過程程式碼示例

Hadoop MapReduce資料處理過程以及更多示例

Hadoop MapReduce之Join示例

Hadoop RCFile儲存格式詳解（原始碼分析、程式碼示例）

mapreduce程式碼示例(借鑑)

MapReduce序列化及分割槽的java程式碼示例

大資料（hadoop-mapreduce程式碼及程式設計模型講解）

記一次mapreduce讀取不到輸入文件的問題

Hadoop Mapreduce之WordCount實現

16-hadoop-mapreduce簡介

Hadoop MapReduce輸入輸出類型

org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: file:/input

Hadoop Mapreduce模板

使用hadoop mapreduce分析mongodb數據

hadoop mapreduce

hadoop-mapreduce-(1)-統計單詞數量

hadoop mapreduce讀取orcfile的java程式碼示例

相關推薦