Spark SQL 小檔案問題處理

阿新 • • 發佈：2020-12-17

在生產中，無論是通過SQL語句或者/Java等程式碼的方式使用處理資料，在Spark SQL寫資料時，往往會遇到生成的小檔案過多的問題，而管理這些大量的小檔案，是一件非常頭疼的事情。

大量的小檔案會影響Hadoop叢集管理或者Spark在處理資料時的穩定性：

1. Spark SQL寫Hive或者直接寫入HDFS，過多的小檔案會對NameNode記憶體管理等產生巨大的壓力，會影響整個叢集的穩定執行

2. 容易導致task數過多，如果超過引數spark.driver.maxResultSize的配置（預設1g），會丟擲類似如下的異常，影響任務的處理

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 478 tasks (2026.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

當然可以通過調大spark.driver.maxResultSize的預設配置來解決問題，但如果不能從源頭上解決小檔案問題，以後還可能遇到類似的問題。

此外，Spark在處理任務時，一個分割槽分配一個task進行處理，多個分割槽並行處理，雖然並行處理能夠提高處理效率，但不是意味著task數越多越好。如果資料量不大，過多的task執行反而會影響效率。

下面通過一個例子，Spark SQL寫資料時，導致產生分割槽數"劇增"的典型場景，通過分割槽數"劇增"，以及Spark中task數和分割槽數的關係等，來倒推小檔案過多的可能原因（這裡的分割槽數是指生成的DataSet/RDD的分割槽數，不是Hive分割槽表的分割槽概念）：

1. 現象

1) 對錶test_tab進行寫入操作
2) t1的分割槽數是100，t2的分割槽數是200，union all後生成的tmp分割槽數是300
3) test_tab產生的小檔案數基本也在300左右
select * from t1 union all select * from t2 as tmp;insert overwrite table test_tab select * from tmp;

2. 分析

1）執行上述insert操作時的分割槽並行度，主要受tmp的分割槽數（對應一個DataSet）影響，

2）tmp的分割槽數主要受t1、t2以及union all的影響

3）暫且不考慮t1或t2是物理表還是經過其他處理生成的臨時表，它們的分割槽數是確定的，這裡主要看經過union all處理後，生成的tmp的分割槽數和t1、t2的分割槽數有何關係？

4）Spark SQL語句中的union all對應到DataSet中即為unionAll運算元，底層呼叫union運算元

在之前的文章中已經對Spark RDD中的union運算元對union產生的新的RDD的分割槽數是如何受被union的多個RDD的影響的，做過詳細介紹，這裡直接給出結論：

同樣的這種機制也可以套用到Spark SQL中的DataSet上，那麼就很好解釋了tmp的分割槽數為什麼等於t1和t2的分割槽數的和。

最後，Spark中一個task處理一個分割槽從而也會影響最終生成的檔案數。

當然上述只是以Spark SQL中的一個場景闡述了小檔案產生過多的原因之一（分割槽數過多）。在數倉建設中，產生小檔案過多的原因有很多種，比如：

1. 流式處理中，每個批次的處理執行儲存操作也會產生很多小檔案

2. 為了解決資料更新問題，同一份資料儲存了不同的幾個狀態，也容易導致檔案數過多

那麼如何解決這種小檔案的問題呢？

1. 通過repartition或coalesce運算元控制最後的DataSet的分割槽數

注意repartition和coalesce的區別，具體可以參考文章

2. 將Hive風格的Coalesce and Repartition Hint 應用到Spark SQL需要注意這種方式對Spark的版本有要求，建議在Spark2.4.X及以上版本使用，示例：

INSERT ... SELECT /*+ COALESCE(numPartitions) */ ...
INSERT ... SELECT /*+ REPARTITION(numPartitions) */ ...

3. 小檔案定期合併

可以定時通過非同步的方式針對Hive分割槽表的每一個分割槽中的小檔案進行合併操作

上述只是給出3種常見的解決辦法，並且要結合實際用到的技術和場景去具體處理，比如對於HDFS小檔案過多，也可以通過生成HAR 檔案或者Sequence File來解決。

Spark SQL 小檔案問題處理

spark sql合併小檔案_Spark SQL小檔案問題在OPPO的解決方案

技術標籤：spark sql合併小檔案 Spark SQL小檔案是指檔案大小顯著小於hdfs block塊大小的的檔案。過於繁多的小檔案會給HDFS帶來很嚴重的效能瓶頸，對任務的穩定和叢集的維護會帶來極大的挑戰。

[離線計算-Spark|Hive] HDFS小檔案處理

本文主要介紹小檔案的處理方法思路,以及通過閱讀原始碼和相關資料學習hudi 如何在寫入時智慧的處理小檔案問題新思路.Hudi利用spark 自定義分割槽的機制優化記錄分配到不同檔案的能力,達到小檔案的合併處理.

HDFS小檔案處理

缺點：儲存層面：1個檔案塊，佔用namenode多大記憶體150位元組 128G能儲存多少檔案塊？128 g* 1024m1024kb1024byte/150位元組 = 9.1億檔案塊

spark sql/hive小檔案問題

針對hive on mapreduce 1：我們可以通過一些配置項來使Hive在執行結束後對結果檔案進行合併：

Spark SQL操作JSON欄位的小技巧

前言介紹Spark SQL的JSON支援，這是我們在Databricks中開發的一個功能，可以在Spark中更容易查詢和建立JSON資料。隨著網路和移動應用程式的普及，JSON已經成為Web服務API以及長期儲存的常用的交換格式。使用現有的工

uPDF-功能強大的PDF檔案處理小工具

前幾天因為工作原因，需要將一個PDF壓縮一下。網上找了半天，要麼收費，要麼就是轉換的質量不太好。論壇也找到一些破解的軟體，但是總有點不太合適，有些功能還挺複雜。也有些線上轉換的，又考慮到自己較為隱私的pd

探尋從HDFS到Spark的高效資料通道：以小檔案輸入為案例(轉)

>>> 為了保證高效的資料移動，locality是大資料棧以及分散式應用程式所必須保證的性質，這一點在Spark中尤為明顯。如果資料集大到不能保證完全放入記憶體，那就不能貿然使用cache()將資料固化

大資料開發-Flume-頻繁產生小檔案原因和處理

1.問題背景通過flume直接上傳實時資料到hdfs，會常遇到的一個問題就是小檔案，需要調引數來設定，往往在生產環境引數大小也不同

Spark-SQL 讀寫Parquet檔案

技術標籤：Sparkspark 讀Parquet格式wenjian import org.apache.spark.sql.{DataFrame, SparkSession}

Spark-SQL 讀寫csv檔案

技術標籤：Sparkspark name,age,fv_value libai,18,9999.99 xuance,30,99.99 diaochan,28,99.99 libai,18,9999.99

MapReduce處理大(小)檔案的方式

1.輸入大檔案時 conf.setLong(FileInputFormat.SPLIT_MINSIZE,1024*1024*256L); //小於這個資料時進行合併

hive任務處理小檔案合併的引數配置

1.小檔案產生使用hive過程中經常會遇到小檔案問題：在執行插入資料操作過程中，可能會產生小檔案（map輸入）；

圖解大資料 | Spark Dataframe/SQL大資料處理分析

【Spark研究】用Apache Spark進行大資料處理第二部分：Spark SQL

在Apache Spark文章系列的前一篇文章中，我們學習了什麼是Apache Spark框架，以及如何用該框架幫助組織處理大資料處理分析的需求。

3.3.Linux-文字過濾與處理-csplit指令：將檔案分割為若干小檔案（瞭解）

1.csplit 指令 Linux csplit命令用於分割檔案。將檔案依照指定的範本樣式予以切割後，分別儲存成名稱為xx00,xx01,xx02...的檔案。若給予的檔名稱為\"-\"，則csplit指令會從標準輸入裝置讀取資料。

位元組跳動在Spark SQL上的核心優化實踐 | 位元組跳動技術沙龍

10月26日，位元組跳動技術沙龍 | 大資料架構專場在上海位元組跳動總部圓滿結束。我們邀請到位元組跳動資料倉庫架構負責人-郭俊，Kyligence 大資料研發工程師-陶加濤，位元組跳動儲存工程師-徐明敏，阿里雲高階技術

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點：

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例

Spark 系列（十）—— Spark SQL 外部資料來源

一、簡介 1.1 多資料來源支援 Spark 支援以下六個核心資料來源，同時 Spark 社群還提供了多達上百種資料來源的讀取方式，能夠滿足絕大部分使用場景。

Spark SQL 小檔案問題處理

相關推薦