spark 讀寫 parquet

阿新 • • 發佈：2019-01-13

SQLConf

// This is used to set the default data source
  val DEFAULT_DATA_SOURCE_NAME = buildConf("spark.sql.sources.default")
    .doc("The default data source to use in input/output.")
    .stringConf
    .createWithDefault("parquet")
...
def defaultDataSourceName: String = getConf(DEFAULT_DATA_SOURCE_NAME)
...

test case

val df = spark.read.format("ParquetFileFormat").load(parquetFile)
df.show()

df.show() debug 出來的情況

FileScanRDD.scala

private def readCurrentFile(): Iterator[InternalRow] = {
        try {
        //readFunction 函式
          readFunction(currentFile)
        } catch {
          case e: FileNotFoundException =>
            throw new FileNotFoundException(
              e.getMessage + "\n" +
                "It is possible the underlying files have been updated. " +
                "You can explicitly invalidate the cache in Spark by " +
                "running 'REFRESH TABLE tableName' command in SQL or " +
                "by recreating the Dataset/DataFrame involved.")
        }
      }

ParquetFileFormat.scala

  override def buildReaderWithPartitionValues(
      sparkSession: SparkSession,
      dataSchema: StructType,
      partitionSchema: StructType,
      requiredSchema: StructType,
      filters: Seq[Filter],
      options: Map[String, String],
      hadoopConf: Configuration): (PartitionedFile) => Iterator[InternalRow] = {
      ...
      vectorizedReader.initialize(split, hadoopAttemptContext)
      ...

}

VectorizedParquetRecordReader.java

/**
   * Implementation of RecordReader API.
   */
  @Override
  public void initialize(InputSplit inputSplit, TaskAttemptContext taskAttemptContext)
      throws IOException, InterruptedException, UnsupportedOperationException {
    super.initialize(inputSplit, taskAttemptContext);
    initializeInternal();
  }

SpecificParquetRecordReaderBase.java

//super.initialize
@Override
  public void initialize(InputSplit inputSplit, TaskAttemptContext taskAttemptContext)
      throws IOException, InterruptedException {
      ...
ReadSupport.ReadContext readContext = readSupport.init(new InitContext(
        taskAttemptContext.getConfiguration(), toSetMultiMap(fileMetadata), fileSchema));
...
}

ParquetReadSupport.scala

/**
   * Called on executor side before [[prepareForRead()]] and instantiating actual Parquet record
   * readers.  Responsible for figuring out Parquet requested schema used for column pruning.
   */
  override def init(context: InitContext): ReadContext = {
    catalystRequestedSchema = {
      val conf = context.getConfiguration
      val schemaString = conf.get(ParquetReadSupport.SPARK_ROW_REQUESTED_SCHEMA)
      assert(schemaString != null, "Parquet requested schema not set.")
      StructType.fromString(schemaString)
    }

    val caseSensitive = context.getConfiguration.getBoolean(SQLConf.CASE_SENSITIVE.key,
      SQLConf.CASE_SENSITIVE.defaultValue.get)
    val parquetRequestedSchema = ParquetReadSupport.clipParquetSchema(
      context.getFileSchema, catalystRequestedSchema, caseSensitive)

    new ReadContext(parquetRequestedSchema, Map.empty[String, String].asJava)
  }

spark 讀寫 parquet

SQLConf // This is used to set the default data source val DEFAULT_DATA_SOURCE_NAME = buildConf("spark.sql.sources.default") .doc("The def

java 讀寫Parquet格式的數據 Parquet example

readline byte ble print 三種每一個 sta cep edr import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io

Spark讀寫OSS並使用OSS-Select來加速查詢

Spark讀寫OSS 基於這篇文章搭建的CDH6以及配置，我們來使Spark能夠讀寫OSS(其他版本的Spark都是類似的做法，不再贅述)。由於預設Spark並沒有將OSS的支援包放到它的CLASSPATH裡面，所以我們需要執行如下命令下面的步驟需要在所有的CDH節點執行進入到$CDH_HOME/

Apache Spark 讀寫Apache ignite 程式碼實戰

package com.zhw.bigdata.ignite; import org.apache.ignite.spark.IgniteDataFrameSettings; import org.apache.spark.sql.Dataset; import org.apache.spar

Spark讀寫Hbase的二種方式對比

作者：Syn良子出處：http://www.cnblogs.com/cssdongl 轉載請註明出處一.傳統方式這種方式就是常用的TableInputFormat和TableOutputFormat來讀寫hbase，如下程式碼所示簡單解釋下，用sc.newA

Spark讀寫Elasticsearch

Spark讀寫Elasticsearch 版本說明 Spark:2.3.1 Elasticsearch: elasticsearch-6.4.0 1 Scala環境下Spark讀寫Elasticsearch 1.1 依賴包 1.1.1 Spark依賴

讀寫parquet格式檔案的幾種方式

摘要本文將介紹常用parquet檔案讀寫的幾種方式 1.用spark的hadoopFile api讀取hive中的parquet格式檔案 2.用sparkSql讀寫hive中的parquet格式 3.用新舊MapReduce讀寫parquet格式檔案讀

java操作spark讀寫mongodb

首先要引入mongodb-spark-connector的maven依賴，具體的可見這個api網址：https://docs.mongodb.com/spark-connector/current/java-api/，然後基本上就可以按照api上面的內容來進行spark操作

spark讀寫csv檔案

如果是spark1.6.0請新增maven： <dependency> <groupId>com.databricks</groupId> <artifactId>s

spark讀寫hbase效能對比

一、spark寫入hbase hbase client以put方式封裝資料，並支援逐條或批量插入。spark中內建saveAsHadoopDataset和saveAsNewAPIHadoopDataset兩種方式寫入hbase。為此，將同樣的資料插入其中對比效能。依賴如下：

spark讀寫資料到kafka

叢集環境：CDH5.8.0 / spark1.6.0 / scala2.10.4在使用時，我們需要新增相應的依賴包： <dependency> <groupId>org.apache.spark</groupId>

【spark 讀寫資料】資料來源的讀寫操作

通用的 Load/Save 函式在最簡單的方式下，預設的資料來源（parquet 除非另外配置通過spark.sql.sources.default）將會用於所有的操作。 Parquet 是一個列式儲存格式的檔案，被許多其他資料處理系統所支援。Spark

spark讀寫hbase

1 配置 1.1 開發環境： HBase：hbase-1.0.0-cdh5.4.5.tar.gzHadoop：hadoop-2.6.0-cdh5.4.5.tar.gzZooKeeper：zookeeper-3.4.5-cdh5.4.5.tar.gzSpark：spark-2.1.0-bin-hadoop2.

如何使用scala+spark讀寫hbase？

最近工作有點忙，所以文章更新頻率低了點，希望大家可以諒解，好了，言歸正傳，下面進入今天的主題：如何使用scala+spark讀寫Hbase 軟體版本如下： scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些實時資料處理的專案，儲存

spark常見操作系列(3)--spark讀寫hbase(2)

接著上一篇, 問題(2): scan有 scan.setCaching(10000) scan.setCacheBlocks(true) 等設定.setCaching ,個人感覺不夠用.hbase 預設是在記憶體裡面放一塊資料用來讀取,所以讀取效率比較高,可是,

Spark讀寫Hbase資料

環境 spark: 2.4.3 hbase: 1.1.5 步驟啟動hadoop-3.1.2,hbase2.2.0 把HBas

8.spark core之讀寫數據

鍵值對逗號 .data air lines man inf return ear spark支持多種數據源，從總體來分分為兩大部分：文件系統和數據庫。文件系統 ??文件系統主要有本地文件系統、Amazon S3、HDFS等。 ??文件系統中存儲的文件有多種存儲格式。sp

Spark SQL讀寫方法

data 類型編程記錄 sim 效率 top 行數 gty 一、DataFrame：有列名的RDD 首先，我們知道SparkSQL的目的是用sql語句去操作RDD，和Hive類似。SparkSQL的核心結構是DataFrame，如果我們知道RDD裏面的字段，也知道裏面的

12.spark sql之讀寫數據

rcfile serializa fig jdbc連接 nco .sh nat 字段 jdb 簡介 ??Spark SQL支持多種結構化數據源，輕松從各種數據源中讀取Row對象。這些數據源包括Parquet、JSON、Hive表及關系型數據庫等。 ??當只使用一部分字段時，

spark通過phoenix讀寫hbase（Java版）-轉：https://blog.csdn.net/xiongbingcool/article/details/81458602

pom.xml  <dependency> <groupId

spark 讀寫 parquet

df.show() debug 出來的情況

相關推薦