Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件

阿新 • • 發佈：2020-12-03

首先說一下，這裡解決的問題應用場景：

sparksql處理Hive表資料時，判斷載入的是否是分割槽表，以及分割槽表的欄位有哪些？再進一步限制查詢分割槽表必須指定分割槽？

這裡涉及到兩種情況：select SQL查詢和載入Hive表路徑的方式。這裡僅就"載入Hive表路徑的方式"解析分割槽表字段，在處理時出現的一些問題及解決作出詳細說明。

如果大家有類似的需求，筆者建議通過解析Spark SQL logical plan和下面說的這種方式解決方案結合，封裝成一個通用的工具。

問題現象

sparksql載入指定Hive分割槽表路徑，生成的DataSet沒有分割槽欄位。

如，

sparkSession.read.format("parquet").load(s"${hive_path}")，hive_path為Hive分割槽表在HDFS上的儲存路徑。

hive_path的幾種指定方式會導致這種情況的發生（test_partition是一個Hive外部分割槽表，dt是它的分割槽欄位，分割槽資料有dt為20200101和20200102）:

1. hive_path為"/spark/dw/test.db/test_partition/dt=20200101"

2. hive_path為"/spark/dw/test.db/test_partition/*"

因為牽涉到的原始碼比較多，這裡僅以示例的程式中涉及到的原始碼中的class、object和方法，繪製成xmind圖如下，想細心研究的可以參考該圖到spark原始碼中進行分析。

問題分析

我這裡主要給出幾個原始碼段，結合上述xmind圖理解：

在沒有指定引數basePath的情況下：

1. hive_path為/spark/dw/test.db/test_partition/dt=20200101

sparksql底層處理後得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【虛擬碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【虛擬碼】

2. hive_path為/spark/dw/test.db/test_partition/*

sparksql底層處理後得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【虛擬碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【虛擬碼】

這兩種情況導致原始碼if(basePaths.contains(currentPath))為true，還沒有解析分割槽就重置變數finished為true跳出迴圈，因此最終生成的結果也就沒有分割槽欄位：

解決方案（親測有效）

1. 在Spark SQL載入Hive表資料路徑時，指定引數basePath，如

sparkSession.read.option("basePath","/spark/dw/test.db/test_partition")

2. 主要重寫basePaths方法和parsePartition方法中的處理邏輯，同時需要修改其他涉及的程式碼。由於涉及需要改寫的程式碼比較多，可以封裝成工具

關聯文章：

Spark SQL

Apache Hive

必須掌握的分散式檔案儲存系統—

Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件

首先說一下，這裡解決的問題應用場景： sparksql處理Hive表資料時，判斷載入的是否是分割槽表，以及分割槽表的欄位有哪些？再進一步限制查詢分割槽表必須指定分割槽？這裡涉及到兩種情況：select SQL查詢和載入Hive表路徑的方式。這裡僅就"載入Hive表路徑的方式"解析分割槽表字段，在處理時出現的

SparkSQL（二）spark-shell和spark-sql以及thriftserver&beeline訪問hive表

一、spark-shell 1.把hive的hive-site.xml複製到spark的conf下面 2.開啟spark-shell bin/spark-shell --master local[2] --jars /opt/datas/mysql-connector-

SpringBoot：SpringData JPA：進階查詢—JPQL/原生SQL查詢、分頁處理、部分欄位對映查詢

上一篇介紹了入門基礎篇SpringDataJPA訪問資料庫。本篇介紹SpringDataJPA進一步的定製化查詢，使用JPQL或者SQL進行查詢、部分欄位對映、分頁等。本文儘量以簡單的建模與程式碼進行展示操作，文章比較長，包含查詢的方方面面。如果能耐心看完這篇文章，你應該能使用SpringDataJ

Oracle 查詢庫中所有表名、欄位名、欄位名說明，查詢表的資料條數、表名、中文表名

查詢所有表名： select t.table_name from user_tables t; 查詢所有欄位名： select t.column_name from user_col_comments t; 查詢指定表的所有欄位名： select t.column_nam

SQl 語句(常見) 新建,刪除,修改表，新增欄位，修改預設值

SQl 語句(常見) 新建,刪除,修改表結構新建表： create table [表名] ( [自動編號欄位] int IDENTITY (1,1) PRIMARY KEY , [欄位1] nV

sql中怎樣把同一張表中相同欄位的內容合併為一條記錄(合併的記錄的後面不加逗號)？

一、建立表 create table stuUnion ( sid int identity primary key, cid int, id varchar(500) ) 二、新增資料 insert into stuUnion select 1,'a' union

Spark訪問與HBase關聯的Hive表

刪除 sql 也會影響 ron ble lec lang nbsp 知識點1：創建關聯Hbase的Hive表知識點2：Spark訪問Hive 知識點3：Spark訪問與Hbase關聯的Hive表知識點1：創建關聯Hbase的Hive表兩種方式創建，內部表和外部表

Hive表種map字段的查詢取用

AI map activit http 建表 span tex activity ron 建表可以用 map<string,string> 查詢時可以按照 aaa[bbb], aaa 是map字段名，bbb是其中的參數名，就可以取到這個參數的值了

使用一條sql語句查詢兩個表的某個欄位為某個值時

使用一條sql語句查詢這兩個表的分數相同的人的名字(使用聯合查詢) create table a( id int(10), score int(3), name varchar(20), )charset utf8; create table

Sql使用SUM和UNION ALL 查詢兩張表中指定欄位的和

1、t_test1表 t_test2表 2、查詢需求：求t_test1.num與t_test2.amount之和方法一： SELECT

Spark SQL下的Parquet使用最佳實踐和程式碼實戰

一、Spark SQL下的Parquet使用最佳實踐 1）過去整個業界對大資料的分析的技術棧的Pipeline一般分為以下兩種方式： a）Data Source -> HDFS -> MR/Hive/Spark（相當於ETL）-> HDFS Par

查詢同一表內多欄位同時重複記錄的SQL語句

若想將姓名、身份證號、住址這三個欄位完全相同的記錄查詢出來 select p1.* from persons p1,persons p2 where p1.id<>p2.id and p1.cardid = p2.cardid and p1.pn

【SQL Server】匯出一張表的建表語句、查詢某表的列（欄位）名

一、匯出一張表的建表語句在《【Mysql】匯出一張已經存在的表的建表語句》（點選開啟連結）中曾經介紹過，如何在Mysql中匯出一張表的建表語句。而在SQL Server中同樣有這樣的功能。如下圖，首先右擊你要匯出表所在的資料庫，選擇任務、生成指令碼之後點下一步，點到

Spark SQL 之自定義刪除外部表

前言 Spark SQL 在刪除外部表時，本不能刪除外部表的資料的。本篇文章主要介紹如何修改Spark SQL 原始碼實現在刪除外部表的時候，可以帶額外選項來刪除外部表的資料。本文的環境是我一直使用的 spark 2.4.3 版本。 1. 修改ANTLR4 語法檔案修改 SqlBase.g4檔案中drop

資料庫SQL實踐13：從titles表獲取按照title進行分組

思想：題目要求從titles表獲取按照title進行分組，每組個數大於等於2，給出title以及對應的數目t。首先通過條件group by title實現按照title分組，其次通過條件having t>=2實現每組個數大於等於2（其中t是count(*)即每組的個數）。 selec

mysql資料庫的簡單增刪改查，合併欄位，拼接字元操作，用java完成將一張表中的查詢結果合併存入另一張表的指定欄位

首先問題描述：我現在有兩個表，一個表是關鍵詞，一個表是含有關鍵詞的標籤，需要做的就是在關鍵詞表中新建一個標籤欄位，把包含該關鍵詞的全部標籤存入其中。比如關鍵詞是Java,標籤可能有Java開發，Java後臺等。我這裡關鍵詞有4000個，標籤有40000個，我用了小段java程式碼+sql的函式就完成

資料庫SQL實踐14：從titles表獲取按照title進行分組，注意對於重複的emp_no進行忽略

思想：題目要求從titles表獲取按照title進行分組，每組個數大於等於2，給出title以及對應的數目t。注意對於重複的emp_no進行忽略。首先通過條件group by title實現按照title進行分組，其次通過條件count(distinct emp_no)實現對重複的emp_no

如何oracle 某一使用者授予查詢另一個使用者某張表的許可權，以及更新另一使用者表中某些欄位

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Hive如何根據表中某個欄位動態分割槽

使用hive儲存資料時，需要對做分割槽，如果從kafka接收資料，將每天的資料儲存一個分割槽（按天分割槽），儲存分割槽時需要根據某個欄位做動態分割槽，而不是傻傻的將資料寫到某一個臨時目錄最後倒入到某一個分割槽，這是靜態分割槽。 Hive動態分割槽步驟如下： 1、建立某一個源表模擬資料來源並

Spark SQL用UDF實現按列特徵重分割槽

歡迎關注，浪尖公眾號，bigdatatip，建議置頂。這兩天，球友又問了我一個比較有意思的問題: 解決問題之前，要先了解一下Spark 原理，要想進行相同資料歸類到相同分割槽，肯定要有產生shuffle步驟。比如，F到G這個shuffle過程，那麼如何決定資料

Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件

相關推薦