Spark Sql之pathGlobFilter 和recursiveFileLookup 選項關於分割槽的一點猜想和驗證

阿新 • • 發佈：2021-06-24

起因：

學習Spark Sql時，在官方文件看到兩個有意思的選項pathGlobFilter和recursiveFileLookup。

簡單地說，兩個都是隻對基礎檔案格式生效，eg: parquet,orc,avro,json.csv,text;

pathGlobFilter是根據正則篩選要讀取的檔案；而recursiveFileLookup設定為true，就會遞迴的讀取檔案，

但是文件中各有一句描述這兩個選項

pathGlobFilter

It does not change the behavior of partition discovery.

我翻譯過來就是：它不會改變分割槽發現的行為。

recursiveFileLookup

recursiveFileLookupis used to recursively load files and it disables partition inferring. If data source explicitly specifies thepartitionSpecwhenrecursiveFileLookupis true, exception will be thrown.

而這句就是：recursiveFileLookup被用於遞迴載入檔案並禁止分割槽推斷。如果recursiveFileLookup設定為true並且資料來源明確指定了分割槽欄位，那麼將會丟擲異常。

猜想：

理解起來很奇怪，一是直譯過來很拗口，二是兩個引數都是用於從檔案中獲取資料，關分割槽有什麼關係吶？

後來一想，從檔案中讀取資料後被封裝到DataFrame中，DataFrame中可以使用saveAsTable儲存到表中，並且可以通過partitionBy方法指定分割槽欄位，是否和這個有關係吶？

驗證：

首先在resource下準備一個目錄，目錄結構如下：

name/
├── name=1234/
└── name.json

name.json內容：

{"_c0":"張三1","_c1":"24"}
{"_c0":"張三2","_c1":"25"}
{"_c0":"張三3","_c1":"26"} 

{"_c0":"張三4","_c1":"27"}
{"_c0":"張三5","_c1":"28"}

程式碼如下：

val spark = SparkSessionUtils.getLocalSparkSession()

val recursiveFileLookupDF = spark.read
  .option("recursiveFileLookup", "true")
  .json(this.getClass.getResource("/name").getPath)

val pathGlobFilterDF = spark.read
  .option("pathGlobFilter", "*.json")
  .format("json")
  .load(this.getClass.getResource("/name").getPath)

// 1
pathGlobFilterDF.write
  .saveAsTable("pathGlobFilter1")

// 2
pathGlobFilterDF.write
  .partitionBy("name")
  .saveAsTable("pathGlobFilter2")

// 3
recursiveFileLookupDF.write
  .saveAsTable("recursiveFileLookup1")

// 4
recursiveFileLookupDF.write
  .partitionBy("_c0")
  .saveAsTable("recursiveFileLookup2")

spark.sql("select * from pathGlobFilter1").show()
spark.sql("select * from pathGlobFilter2").show()
spark.sql("select * from recursiveFileLookup1").show()
spark.sql("select * from recursiveFileLookup2").show()

SparkSessionUtils類的程式碼如下：

object SparkSessionUtils {
  def getLocalSparkSession(): SparkSession = {
    SparkSession
      .builder()
      .appName("Spark SQL basic example")
      .config("spark.testing.memory", "471859200")
      .master("local[*]")
      .getOrCreate()
  }
}

輸出結果：

// 1
+-----+---+----+
| _c0|_c1|name|
+-----+---+----+
|張三1| 24|1234|
|張三2| 25|1234|
|張三3| 26|1234|
|張三4| 27|1234|
|張三5| 28|1234|
+-----+---+----+

// 2
+-----+---+----+
| _c0|_c1|name|
+-----+---+----+
|張三1| 24|1234|
|張三2| 25|1234|
|張三3| 26|1234|
|張三4| 27|1234|
|張三5| 28|1234|
+-----+---+----+

// 3
+-----+---+
| _c0|_c1|
+-----+---+
|張三1| 24|
|張三2| 25|
|張三3| 26|
|張三4| 27|
|張三5| 28|
+-----+---+

// 4
+---+-----+
|_c1| _c0|
+---+-----+
| 26|張三3|
| 27|張三4|
| 25|張三2|
| 28|張三5|
| 24|張三1|
+---+-----+

顯著體現就是在pathGlobFilter會把目錄name=1234解析成一個欄位，名稱為name，值為1234；而recursiveFileLookup只會把它當成一個普通的目錄，遞迴載入其下的檔案。如果瞭解分割槽表，那麼就會知道分割槽表在路徑上的體現就是分割槽欄位=xxx。

然後在看一下表的目錄結構：

總結起來就是在load資料時，對於目錄類似a=b的形式，pathGlobFilter會將其a解析成一個欄位，欄位值為b；而recursiveFileLookup會忽略這個特點，只會把它當成一個普通的目錄，正符合官方文件描述的：it disables partition inferring。

Spark Sql之pathGlobFilter 和recursiveFileLookup 選項關於分割槽的一點猜想和驗證

Spark Sql之pathGlobFilter 和recursiveFileLookup 選項關於分割槽的一點猜想和驗證

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

Spark SQL 之 RDD、DataFrame 和 Dataset 如何選擇

Spark 系列（九）—— Spark SQL 之 Structured API

Spark SQL之RDD轉換DataFrame的方法

Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件

Spark SQL(5-2) CacheManage之InMemoryRelation

四、SQL之單表和多表查詢

spark sql練習之join操作

Spark-SQL 使用SQL和DSL 統計使用者上網流量案例

Spark學習之路四、Spark的廣播變數和累加器

Spark學習之路六、Spark Transformation和Action

SPARK-SQL內建函式之時間日期類

大資料開發之Spark SQL/Hive實用函式分享

大資料開發之Spark SQL執行效能的提升

spark dataframe和spark sql

Spark原始碼系列（九）Spark SQL初體驗之解析過程詳解

位元組跳動在Spark SQL上的核心優化實踐 | 位元組跳動技術沙龍

Spark 系列（十）—— Spark SQL 外部資料來源

Spark 系列（十一）—— Spark SQL 聚合函式 Aggregations

Spark Sql之pathGlobFilter 和recursiveFileLookup 選項關於分割槽的一點猜想和驗證

相關推薦