spark sql parquet資料來源 (推薦)
阿新 • • 發佈:2018-11-10
package com.ws.jdbc import org.apache.spark.sql.{DataFrame, SparkSession} /** * 推薦使用 */ object ParquetSource { def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder().appName("ParquetSource").master("local[*]").getOrCreate() //讀取parquet資料,指定一個目錄 , parquet檔案頭儲存了資料格式和偏移量,更加智慧化 val data: DataFrame = sparkSession.read.parquet("E:\\bigData\\testdata\\move.parquet") //也可以這樣獲取 //sparkSession.read.format("parquet").load("\"E:\\\\bigData\\\\testdata\\\\move.parquet\"") val result = data.limit(10) result.printSchema()//非Action result.show() sparkSession.stop() } }