Spark將大量分割槽寫入HDFS報錯

阿新 • • 發佈：2019-02-11

對大量的資料進行一系列的資料處理後DataFrame此時有2W個分割槽（170W條資料，因此每個分割槽數量只有幾百條），此時使用parquet命令，將會往一個hdfs檔案中同時寫入了大量的碎檔案。

提示(省略無用資訊):

WARN TaskSetManager: Lost task: org.apache.spark.SparkException: Task failed while writing rows.

WARN TaskSetManager: Lost task:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): 
 No lease on /user/xx/sample_2016/_temporary/0/_temporary/attempt_201604141035_0058_m_019029_0/part-r-19029-1b93e1fa-9284-4f2c-821a-c83795ad27c1.gz.parquet: 
 File does not exist. Holder DFSClient_NONMAPREDUCE_1239207978_115 does not have any open files.

原因

提示為檔案操作超租期，由於多個task操作寫一個檔案，其中某個task完成任務後刪除了臨時檔案引起。
該引數和dfs.datanode.max.xcievers有關，預設為256。

dfs.datanode.max.xcievers表示每個datanode任一時刻可以開啟的檔案數量上限。

解決方法

有兩個解決方法，一種是修改spark程式碼，一種是修改hdfs引數配置。

避免太高的併發度同時寫一個檔案。
所以在呼叫write.parquet前，先使用repartition合併碎片分割槽。
因為減少了分割槽數，下次再讀取這份資料進行處理時，減少了啟動task的開銷。
提高同時寫的上限。
在hdfs-site.xml中修改dfs.datanode.max.xcievers,將其設定為4096
```
 <property>
    <name>dfs.datanode.max.xcievers</name>
    <value>4096</value>
  </property>
```
需要重啟dataNode生效。

Spark將大量分割槽寫入HDFS報錯

對大量的資料進行一系列的資料處理後DataFrame此時有2W個分割槽（170W條資料，因此每個分割槽數量只有幾百條），此時使用parquet命令，將會往一個hdfs檔案中同時寫入了大量的碎檔案。提示(省略無用資訊): WARN TaskSetManage

spark 將dataframe資料寫入Hive分割槽表

從spark1.2 到spark1.3，spark SQL中的SchemaRDD變為了DataFrame，DataFrame相對於SchemaRDD有了較大改變，同時提供了更多好用且方便的API。 DataFrame將資料寫入hive中時，預設的是hive預設資料庫，in

Hadoop格式化HDFS報錯java.net.UnknownHostException: centos64

save rect sys ges bsp mission compile 以及 msg 異常描述在對HDFS格式化，執行hadoop namenode -format命令時，出現未知的主機名的問題，異常信息如下所示： Java代碼 [shirdrn@loc

ObjectMapper將json轉對象報錯處理

exc ctu 構造 struct test col bject spa 解決辦法在使用ObjectMapper將json轉對象，調用mapper.readValue(jsonStr, XwjUser.class)時，報如下錯： com.fasterxml.jackso

Hadoop格式化HDFS報錯java.net.UnknownHostException: localhost.localdomain: localhost.localdomain

n-n article working boa att eth0 mini board title 異常描述在對HDFS格式化，執行hadoop namenode -format命令時，出現未知的主機名的問題，異常信息如下所示： [plain] view pl

Homebrew安裝軟體出現無寫入許可權報錯的解決方案

系統版本 macOS 10.14 情景使用 brew install wget 指令報錯 Error: The following directories are not writable by your user: /usr/local/sbin /usr/lo

訪問HDFS報錯：org.apache.hadoop.security.AccessControlException: Permission denied

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class TestHDFS { publ

Spark-在cdh叢集中執行報錯

Run on a YARN cluster spark-submit \ --class com.hnb.data.UserKeyOpLog \ --master yarn \ --deploy-mode cluster \ --executor-memory 128M \ -

在Windows下的idea中訪問HDFS報錯 Could not locate executable null\bin\winutils.exe

18/09/08 20:18:33 ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate e

spark連線並讀取本地檔案報錯總結

1.scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps; 錯誤原因：scala版本與spark版本相容問題導致，可在maven倉庫看spark所使用jar包支援的scala版本。注

Windows下Spark-mlib儲存模型到本地報錯

Windows下Spark-mlib儲存模型到本地報空指標解決方案出這種錯誤真是一臉懵逼，程式碼肯定是沒問題的。二、解決辦法下載編譯好的winutils.exe，該文章裡講述了出錯的原因；把該執行檔案放置在某個路徑下，如 c:\\winutils\\bin；在程式

【原創】問題定位分享（17）spark查orc格式資料偶爾報錯NullPointerException

spark查orc格式的資料有時會報這個錯 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits(OrcInputFo

Spark-2.2.0原始碼編譯報錯

[INFO] ------------------------------------------------------------------------ [INFO] BUILD FAILURE [INFO] -----------------------------------------------

lucene2.9.0索引寫入不報錯卻無法寫入的奇怪問題

多次除錯後，發現是writer初始化的問題 Directory fsDir = FSDirectory.open(new File(indexPath)); //Directory ramDir = new RAMDirectory(fsDir);writer = new

fasterxml.jackson 將物件轉換為json報錯處理

最近在做查詢的資料遇到如下報錯： com.fasterxml.jackson.databind.exc.InvalidDefinitionException: No serializer found for class org.hibernate.proxy.pojo.javassist.Jav

Dynamics 365的稽核日誌分割槽刪除超時報錯怎麼辦？

摘要: 本人微信公眾號：微軟動態CRM專家羅勇，回覆296或者20190112可方便獲取本文，同時可以在第一間得到我釋出的最新博文資訊，follow me！我的網站是 www.luoyong.me 。稽核(Audit)是Dynamics 365 Customer Engagement的一個不錯功能，每三

生產環境Tomcat伺服器訪問HDFS報錯

下載Tomcat日誌檔案 runtime_info.log檢視資訊： [WARN ][19-01-11 18:07:19][http-nio-8080-exec-3][*]Exception encountered while connecting to the server : jav

Android Studio匯入專案執行出現大量警告，且報錯GC，解決辦法

問題描述：同事給了一個專案讓我執行，我開啟工程後，本地使用的gradle 3.3版本和com.android.tools.builld:gradle:2.3.2版本都要高於專案本身指定的gradle 2.14.1和2.2.3，使用本地自己的版本沒有去下載專案原來指定的版本，b

解決python2.7.x在windows系統下檔案寫入中文報錯

分析:windows下cmd預設的編碼是ASCII編碼 ,windows的中文環境下編碼是GBK 方法一:在儲存輸出流儲存的時候做一個對文字GBK編碼,在輸出到檔案如下 title = t

Spark將計算結果寫入到Mysql中

今天主要來談談如果將Spark計算的結果寫入到Mysql或者其他的關係型資料庫裡面。其實方式也很簡單，程式碼如下： 01 /** 02 * User: 過往記憶

Spark將大量分割槽寫入HDFS報錯

原因

解決方法

相關推薦