列式儲存格式之parquet讀寫

阿新 • • 發佈：2021-01-02

title: 列式儲存格式之parquet
date: 2021-01-01 11:45:36
tags: haddop

概述

Apache Parquet是Hadoop生態系統中任何專案均可使用的列式儲存格式，更高壓縮比以及更小IO操作。網上許多寫入parquet需要在本地安裝haddop環境，下面介紹一種不需要安裝haddop即可寫入parquet檔案的方式，以及通過兩種方式來讀取parquet檔案。下面開始入坑了…
在這裡插入圖片描述

parquet寫入

1.pom依賴

 <dependency>
     <groupId>org.apache.avro</ 
groupId>
     <artifactId>avro</artifactId>
     <version>1.8.2</version>
 </dependency>
 <dependency>
     <groupId>org.apache.hadoop</groupId>
     <artifactId>hadoop-core</artifactId>
     <version>1.2.1</version>
 </dependency 
>
 <dependency>
     <groupId>org.apache.parquet</groupId>
     <artifactId>parquet-hadoop</artifactId>
     <version>1.8.1</version>
 </dependency>
 <!-- https://mvnrepository.com/artifact/org.apache.parquet/parquet-avro -->
 <dependency>
     < 
groupId>org.apache.parquet</groupId>
     <artifactId>parquet-avro</artifactId>
     <version>1.8.1</version>
 </dependency>

2.定義schema（實體類）

package com.kestrel;

public class User {
    private String id;
    private String name;
    private String password;

    public User() {
    }

    public User(String id, String name, String password) {
        this.id = id;
        this.name = name;
        this.password = password;
    }

    public String getId() {
        return id;
    }



    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public String getPassword() {
        return password;
    }

    public void setPassword(String password) {
        this.password = password;
    }

    @Override
    public String toString() {
        return "User{" +
                "id='" + id + '\'' +
                ", name='" + name + '\'' +
                ", password='" + password + '\'' +
                '}';
    }
}

AvroParquetWriter 寫入

List<User> users = new ArrayList<>();

User user1 = new User("1","huangchixin","123123");
User user2 = new User("2","huangchixin2","123445");
users.add(user1);
users.add(user2);
Path dataFile = new Path("./tmp/demo.snappy.parquet");

// Write as Parquet file.
try (ParquetWriter<User> writer = AvroParquetWriter.<User>builder(dataFile)
     .withSchema(ReflectData.AllowNull.get().getSchema(User.class))
     .withDataModel(ReflectData.get())
     .withConf(new Configuration())
     .withCompressionCodec(SNAPPY)
     .withWriteMode(OVERWRITE)
     .build()) {

    for (User user : users) {
        writer.write(user);
    }
}

parquet讀取

AvroParquetReader讀取，需要指定物件例項，或者也可自定義json 字串

// Read from Parquet file.
try (ParquetReader<User> reader = AvroParquetReader.<User>builder(dataFile)
    .withDataModel(new ReflectData(User.class.getClassLoader()))
    .disableCompatibility()
    .withConf(new Configuration())
    .build()) {
    User user;

    while ((user = reader.read()) != null) {
    System.out.println(user);
    }
}

ParquetFileReader讀取，不需要

列實體

package com.kestrel;

/**
 * @Auther: 12640
 * @Date: 2021/1/1 15:13
 * @Description:
 */
public class TableHead {

    /**
     * 列名
     */
    private String name;
    /**
     * 儲存 列的 資料型別
     */
    private String type;
    /**
     * 所在列
     */
    private Integer index;
    public String getType() {
        return type;
    }

    public void setType(String type) {
        this.type = type;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public Integer getIndex() {
        return index;
    }

    public void setIndex(Integer index) {
        this.index = index;
    }
}

parquet 實體類

package com.kestrel;

import java.util.List;

/**
 * @Auther: 12640
 * @Date: 2021/1/1 15:14
 * @Description:
 */
public class TableResult {
    /**
     * 解析檔案的表頭資訊 暫時只對 arrow，csv 檔案有效
     */
    private List< TableHead> columns;
    /**
     * 資料內容
     */
    private List<?> data;

    public List< TableHead> getColumns() {
        return columns;
    }

    public void setColumns(List< TableHead> columns) {
        this.columns = columns;
    }

    public List<?> getData() {
        return data;
    }

    public void setData(List<?> data) {
        this.data = data;
    }
}

讀取parquet檔案

import com.fasterxml.jackson.databind.ObjectMapper;
import com.google.common.collect.Lists;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.parquet.column.page.PageReadStore;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.simple.convert.GroupRecordConverter;
import org.apache.parquet.format.converter.ParquetMetadataConverter;
import org.apache.parquet.hadoop.ParquetFileReader;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.example.GroupReadSupport;
import org.apache.parquet.hadoop.metadata.ParquetMetadata;
import org.apache.parquet.io.ColumnIOFactory;
import org.apache.parquet.io.MessageColumnIO;
import org.apache.parquet.io.RecordReader;
import org.apache.parquet.schema.GroupType;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.OriginalType;
import org.apache.parquet.schema.Type;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class ReadParquet {


    public static void main(String[] args) throws Exception {

        TableResult tableResult = parquetReaderV2(new File("./tmp/demo.snappy.parquet"));
        ObjectMapper mapper = new ObjectMapper();
        String jsonString = mapper.writerWithDefaultPrettyPrinter()
                .writeValueAsString(tableResult);
        System.out.println(jsonString);
    }


    public static TableResult parquetReaderV2(File file) throws Exception {
        long start = System.currentTimeMillis();
        haddopEnv();
        Path path = new Path(file.getAbsolutePath());

        Configuration conf = new Configuration();
        TableResult table = new TableResult();

        //二位資料列表
        List<List<Object>> dataList = Lists.newArrayList();

        ParquetMetadata readFooter = ParquetFileReader.readFooter(conf, path, ParquetMetadataConverter.NO_FILTER);

        MessageType schema = readFooter.getFileMetaData().getSchema();
        ParquetFileReader r = new ParquetFileReader(conf, readFooter.getFileMetaData(), path, readFooter.getBlocks(), schema.getColumns());
//        1.9.0使用以下建立物件
//        ParquetFileReader r = new ParquetFileReader(conf, path, readFooter);

        PageReadStore pages = null;
        try {
            while (null != (pages = r.readNextRowGroup())) {
                final long rows = pages.getRowCount();
//				logger.info(file.getName()+" 行數: " + rows);

                final MessageColumnIO columnIO = new ColumnIOFactory().getColumnIO(schema);
                final RecordReader<Group> recordReader = columnIO.getRecordReader(pages,
                        new GroupRecordConverter(schema));
                for (int i = 0; i <= rows; i++) {
//					System.out.println(recordReader.shouldSkipCurrentRecord());
                    final Group g = recordReader.read();
                    if (i == 0) {
                        // 設定表頭列名
                        table.setColumns(parquetColumn(g));
                        i++;
                    }
                    // 獲取行資料
                    List<Object> row = getparquetData(table.getColumns(), g);
                    dataList.add(row);
                    // printGroup(g);

                }
            }
        } finally {
            r.close();
        }
//		logger.info(file.getName()+" 載入時間:"+(System.currentTimeMillis() - start));


        table.setData(dataList);


        return table;
    }


    //新版本中new ParquetReader()所有構造方法好像都棄用了,用上面的builder去構造物件
    static void parquetReader(String inPath) throws Exception{
        GroupReadSupport readSupport = new GroupReadSupport();
        ParquetReader<Group> reader = new ParquetReader<Group>(new Path(inPath),readSupport);
        Group line=null;
        while((line=reader.read())!=null){
            System.out.println(line.toString());
        }
        System.out.println("讀取結束");

    }





    private static List<Object> getparquetData(List<TableHead> columns, Group line) {

        List<Object> row = new ArrayList<>();
        Object cellStr = null;
        for (int i = 0; i < columns.size(); i++) {
            try {
                switch (columns.get(i).getType()) {
                    case "DOUBLE":
                        cellStr = line.getDouble(i, 0);
                        break;
                    case "FLOAT":
                        cellStr = line.getFloat(i, 0);
                        break;
                    case "BOOLEAN":
                        cellStr = line.getBoolean(i, 0);
                        break;
                    case "INT96":
                        cellStr = line.getInt96(i, 0);
                        break;
                    case "LONG":
                        cellStr = line.getLong(i, 0);
                        break;
                    default:
                        cellStr = line.getValueToString(i, 0);
                }

            } catch (RuntimeException e) {

            } finally {
                row.add(cellStr);
            }

        }
        return row;
    }

    /**
     * 獲取arrow 檔案 表頭資訊
     *
     * @param
     * @return
     */
    private static List<TableHead> parquetColumn(Group line) {
        List<TableHead> columns = Lists.newArrayList();
        TableHead dto = null;

        GroupType groupType = line.getType();

        int fieldCount = groupType.getFieldCount();
        for (int i = 0; i < fieldCount; i++) {
            dto = new TableHead();
            Type type = groupType.getType(i);
            String fieldName = type.getName();
            OriginalType originalType = type.getOriginalType();
            String typeName = null;
            if (originalType != null) {
                typeName = originalType.name();
            } else {
                typeName = type.asPrimitiveType().getPrimitiveTypeName().name();
            }

            dto.setIndex(i);
            dto.setName(fieldName);
            dto.setType(typeName);
            columns.add(dto);
        }

        return columns;
    }


    public static void haddopEnv() throws IOException {
        File workaround = new File(".");
        System.getProperties().put("hadoop.home.dir", workaround.getAbsolutePath());
        new File("./bin").mkdirs();
        new File("./bin/winutils.exe").createNewFile();
    }


}

微信公眾號【Java搬磚小夥子】關注一波，更多資源等著你哦
您的支援是我前進路上最大的動力，謝謝！

在這裡插入圖片描述

列式儲存格式之parquet讀寫

技術標籤：javajavahadoop title: 列式儲存格式之parquet date: 2021-01-01 11:45:36 tags: haddop

列式儲存格式與壓縮演算法

列式儲存格式與壓縮演算法列式儲存在OLAP系統中使用列式儲存可以在儲存和查詢兩方面取得優勢：

python多執行緒同步之檔案讀寫控制

本文例項為大家分享了python多執行緒同步之檔案讀寫控制的具體程式碼，供大家參考，具體內容如下

使用Nibabel庫對nii格式影象的讀寫操作

因為後期主要的研究方向是醫學影象處理，而現有手頭的大部分資料都是nii格式或者是hdr，img格式的資料，所以首先第一步我們需要解決影象的讀寫問題。

Python Linux系統管理之檔案讀寫

準備工作 1、安裝Ipython（請見”Ipython的安裝”） 2、實驗用的文件（你自己用vi編輯器建立檔案就好了）

Python之檔案讀寫

題目要求：編寫如下程式有兩行資料，存放在txt檔案裡面(手動建立檔案，並新增如下資料)：url:/futureloan/mvc/api/member/register@mobile:18866668888@pwd:123456url:/futureloan/mvc/api/member/recharge@mobile:

初識yaml語言之yaml讀寫操作

簡介在開發的這種語言時，YAML 的意思其實是：\"Yet Another Markup Language\"（仍是一種標記語言）。

資料庫常見知識點總結-列式儲存、主鍵、儲存大資料量問題

參考： https://blog.csdn.net/qq_14855971/article/details/105649139 https://mp.weixin.qq.com/s?__biz=MzU3NDkwMjAyOQ%3D%3D&chksm=fd2a18e2ca5d91f47758fb6f1b33dde7c6836f35d0a7cbb473cab3df51d454281dff4

Android學習路線_入門篇（九）資料持久化之檔案讀寫

技術標籤：Android學習路線android 資料持久化是保證資料在程式銷燬、裝置關機後仍然不會丟失的操作，Android系統上主要有三種方式。第二個再說說檔案讀寫，在日常開發中很多資料是以檔案的形式進行儲存的，根據

perl刪除檔案_Perl語言學習之檔案讀寫（open）

技術標籤：perl刪除檔案又到了週末，不如去附近的市圖書館看看，背書的，刷題的，看學習視訊的，還有筆耕不止的

儲存格式：parquet和orc對比

Orc格式 Orc (Optimized Row Columnar)是Hive 0.11版裡引入的新的儲存格式。如下圖所示可以看到每個Orc檔案由1個或多個stripe組成，每個stripe一般為HDFS的塊大小，每一個stripe包含多條記錄，這些記錄按照

【大資料面試】sqoop：空值、資料一致性、列式儲存匯出、資料量、資料傾斜

一、有沒有遇到過問題，怎麼進行解決的 1、空值問題本質：hive底層儲存空資料使用\\n《==》MySQL儲存空資料使用null

分散式glusterfs檔案式儲存管理之六：Dispersed 糾刪卷

Dispersed糾刪卷，類似raid5,raid6----分散卷基於糾刪碼，可提供節省空間的保護以防止磁碟或伺服器故障。它將原始檔案的編碼片段儲存到每個磚塊中，只需使用片段的子集即可恢復原始檔案。在不丟失資料訪問許可權的情

儲存介質的訪問讀寫效能概述

讀寫訪問　　　　L1CACHE：連讀大概1700GB/S；連寫大概870GB/S；(latency)大概1.1ns 　　L2CACHE：連讀大概500GB/S；連寫大概270GB/S；(latency)大概3.4ns

威剛釋出 SD7.0 Express Card 儲存卡，峰值讀寫 800/700MB 每秒

2 月 18 日訊息，威剛剛剛釋出了 Premier Extreme SDXC SD7.0 Express Card 儲存卡。這種儲存卡體積足夠小，但效能堪比 SSD。值得一提的是，這是全球首款通過 SD 協會 SD Express 驗證計劃 (SVP) 的品牌 SD Express

為什麼列式儲存會被廣泛用在 OLAP 中？

大家好，我是大D。不知是否有小夥伴們疑問，為什麼列式儲存會廣泛地應用在 OLAP 領域，和行式儲存相比，它的優勢在哪裡？今天我們一起來對比下這兩種儲存方式的差別。

行式儲存和列式儲存的區別

1. 什麼是行式儲存和列式儲存？ 2. 行式儲存分析？缺點： -- 行式在讀取資料的時候，所查詢的目標只涉及少數幾項屬性，但由於這些目標資料埋藏在各行資料單元中，而行單元又特別大，必須讀取每一條完整的行記錄，

vbs 讀寫登錄檔之系統啟動項新增與刪除

核心vbs程式碼 \'變數定義 Dim writeName,writeValue,fileName,regLoaction,regApp \'建立登錄檔編輯器物件

python 讀寫檔案包含多種編碼格式的解決方式

今天寫一個指令碼檔案，需要將多個檔案中的內容彙總到一個txt檔案中，由於多個檔案有三種不同的編碼方式，讀寫出現錯誤，先將解決方法記錄如下：

python+tifffile之tiff檔案讀寫方式

背景使用python操作一批同樣解析度的圖片，合併為tiff格式的檔案。由於opencv主要用於讀取單幀的tiff檔案，對多幀的檔案支援並不好。

列式儲存格式之parquet讀寫

概述

parquet寫入

parquet讀取

相關推薦