java解析Parquet檔案

阿新 • • 發佈：2019-01-29

獲取 Parquet檔案，解析為LIst<String>

package com.emcc.hiacloud.analytics.common.util;

import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.apache.avro.Schema;
import org.apache.avro.generic.GenericData;
import org.apache.hadoop.fs.Path;
import org.apache.parquet.avro.AvroParquetReader;
import org.apache.parquet.hadoop.ParquetReader;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;


public class ParquetUtils {
    private static final String csvDelimiter = ",";
    public static Map<String,List<String[]>> viewParquet(String path,int maxLine) throws IOException {
        Map<String,List<String[]>> parquetInfo=new HashMap<>();
        List<String[]> dataList=new ArrayList<>();
        Schema.Field[] fields = null;
        String[] fieldNames = new String[0];
        try (
             ParquetReader<GenericData.Record> reader =
             AvroParquetReader.<GenericData.Record>builder(new Path(path)).build()
        ){
           int  x=0;
            GenericData.Record record;
            //解析Parquet資料逐行讀取
            while ((record = reader.read()) != null && x<maxLine) {
                //讀取第一行獲取列頭資訊
                if (fields == null) {
                    final List<Schema.Field> fieldsList = record.getSchema().getFields();
                    fieldNames = getFieldNames(fields = fieldsList.toArray(new Schema.Field[0]));
                    System.out.println("列頭:"+String.join(csvDelimiter, fieldNames));
                    dataList.add(fieldNames);
                    parquetInfo.put("head",dataList);
                    dataList=new ArrayList<>();
                }
                int i = 0;
                String[]dataString=new String[fieldNames.length];
                //讀取資料獲取列頭資訊
                for (final String fieldName : fieldNames) {
                    String recordData=record.get(fieldName).toString();
                    if(recordData.contains("type")){
                        List<HashMap> dataFormValue=JSONArray.parseArray(JSONObject.parseObject(recordData).get("values").toString(),HashMap.class);
                        StringBuilder datas = new StringBuilder();
                        for(HashMap data:dataFormValue){
                            datas.append(data.get("element").toString()).append(",");
                        }
                        datas.deleteCharAt(datas.length() - 1);
                        recordData=datas.toString();
                    }
                    dataString[i++] =recordData;
                }
                dataList.add(dataString);
                ++x;
            }
        }
        parquetInfo.put("data",dataList);
        return parquetInfo;
    }

    private static String[] getFieldNames(final Schema.Field[] fields) {
        final String[] fieldNames = new String[fields.length];
        int i = 0;
        for (final Schema.Field field : fields) {
            fieldNames[i++] = field.name();
        }
        return fieldNames;
    }
}

java解析Parquet檔案

獲取 Parquet檔案，解析為LIst<String> package com.emcc.hiacloud.analytics.common.util; import com.alibaba.fastjson.JSONArray; import com.a

java解析json檔案（省，市，區）

[{"code":"11","name":"北京市"},{"code":"12","name":"天津市"},{"code":"13","name":"河北省"},{"code":"14","name":"山西省"},{"code":"15","name":"內蒙古自治區"},{"code":"21","na

Java解析xml檔案的方式

import org.w3c.dom.Document; import org.w3c.dom.Element; import org.w3c.dom.Node; import org.w3c.dom.NodeList; import org.xml.sax.SAXException; impo

java 解析Dicom 檔案

專案使用中需要解析下載過來的Dicom檔案，然後根據固定的層級結構給檔案分目錄。以下是程式碼： /** * <p> * Title: GetDicomTag * </p> * * <p> * Description:解析DI

Java解析XML檔案的常用方法介紹

1 import java.io.IOException; 2 3 import javax.xml.parsers.DocumentBuilder; 4 import javax.xml.parsers.DocumentBuilderFactory; 5 import javax.x

Java解析xml檔案遇到“unknown protocol: c Nested exception: unknown protocol: c”問題的解決辦法

在寫畢設的時候在解析XML檔案的時候遇到的一個棘手的問題“unknown protocol: c Nested exception: unknown protocol: c”，翻閱了資料說是tomcat的安裝路徑不能有空格，要麼重新安裝tomcat，要麼以檔案的形式進行解析，

Java 解析CSV檔案

十一匆匆的就過去了，OneCoder過的也是有點恍惚。不知道都做了什麼，心卻有點散。做一篇翻譯，權當收收心，找找感覺吧。在之前釋出的博文裡我提到，我最近正在把一些neo4j資料載入的程式碼從Ruby遷移到Java，因此作為這個過程中

Java解析yml檔案

程式碼 public class YmlUtil { /** * key:檔名索引 * value:配置檔案內容 */ private stat

java 解析csv檔案例子,csv檔案中文亂碼問題

java 解析csv檔案例子，採用了第三方包，csv檔案中文亂碼問題解析方法： public List resolveCsv(String csvFileName) { CSVReader reader = null; String[] nextLine = null

Java解析xml檔案之增刪改查

XML是什麼: 可擴充套件的標記語言 XML能幹什麼: 描述資料、儲存資料、傳輸（交換）資料。 XML文件節點型別： u 文件(document) u 元素(element) u 屬性(attribu

java解析xml檔案讀取本地dtd或者忽略dtd

Java程式在解析xml檔案時，如果xml檔案中指定了dtd，在預設會從指定的url下載dtd檔案，但是很多情況下如果網路連線不上，或者防火牆原因，dtd檔案無法下載下來導致程式報連線超時異常，解析xml失敗。有兩種方法解決該類問題： 1.指定從本地讀取dtd檔案若要解析

Java解析XML檔案的四種方式

1 import javax.xml.parsers.SAXParser; 2 import javax.xml.parsers.SAXParserFactory; 3 4 import org.xml.sax.Attributes; 5 import org.xml.sax

java解析xml檔案四種方式

1.介紹 1）DOM（JAXP Crimson解析器） DOM是用與平臺和語言無關的方式表示XML文件的官方W3C標準。DOM是以層次結構組織的節點或資訊片斷的集合。這個層次結構允許開發人員在樹中尋找特定資訊。分析該結構通常需要載入整個文件和構造層次結構，然後才能做任何工作。由於它是基於資訊層次的，因而

JAVA解析Excel檔案的兩種方式 --Poi技術

目前有兩種比較主流的技術解析Excel檔案，這裡我講解的是Poi技術的實現。話不多話，Poi包裡有4個主要的類，包括： Workbook------工作表，通過WorkbookFactory的create(FileInputStream fis)方法獲取， Sheet--

java 解析xml檔案

一、SAX：基於事件流的解析優點：不用事先調入整個文件，佔用資源少；SAX解析器程式碼比DOM解析器程式碼小，適於Applet，下載。缺點：不是持久的；事件過後，若沒儲存資料，那麼資料就丟了；無狀態性；從事件中只能得到文字，但不知該文字屬於哪個元素；使用場合：Applet;只

java解析壓縮檔案.zip，獲取資料夾下的資料

/** * 資料包Controller * @author cookie * @version 2017-08-23 */ public class BudgetDateController extends BaseController {

Java解析xml檔案的方法

什麼是 XML? XML指可擴充套件標記語言（EXtensible Markup Language）XML 是一種標記語言，很類似 HTMLXML 的設計宗旨是傳輸資料，而非顯示資料XML 標籤沒有被預定義。您需要自行定義標籤。XML 被設計為具有自我描述性。XML 是

使用Java解析XML檔案或XML字串的例子

本文由Markdown語法編輯器編輯完成。經驗與教訓：因為是Java專案，未載入特定的jar包，而導致在解析XML檔案和字串時，發生了ClassNotFoundException。在使

Jvm之用java解析class檔案

前言：身為一個java程式設計師，怎麼能不瞭解JVM呢，倘若想學習JVM，那就又必須要了解Class檔案，Class之於虛擬機器，就如魚之於水，虛擬機器因為Class而有了生命。《深入理解java虛擬機器》中花了一整個章節來講解Class檔案，可是看完後，一直都還是迷

JAVA 解析excel檔案 poi方式

package *.utils; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.util.ArrayList; impo

java解析Parquet檔案

相關推薦