如何解決spark寫hive慢的問題

阿新 • • 發佈：2019-02-19

在使用spark寫hive過程中，發現最耗時的部分是將產生的結果寫入hive，舉個例子，對3g*1G表的join來講，將結果使用以下方式直接寫入hive表需要超過半小時的時間：

dataframe.registerTempTable("result")

sql(s"""INSERT OVERWRITE Table $outputTable PARTITION (dt ='$outputDate') select * from result""")

而整個結果資料的產生只需要4分鐘左右的時間，比如以下方式：將結果以textfile存入hdfs：

result.rdd.saveAsTextFile(output_tmp_dir)

由此可見，對hive的寫入操作耗用了大量的時間。

對此現象的優化可以是，將檔案存為符合hive table檔案的格式，然後使用hive load將產生的結果檔案直接move到指定目錄下。程式碼如下：

result.rdd.map { r => r.mkString("\001") }.repartition(partitions).saveAsTextFile(output_tmp_dir)

sql(s"""load data inpath '$output_tmp_dir' overwrite into table $output partition (dt='$dt')""")

詳解：

result.rdd.map { r => r.mkString("\001") }.repartition(partitions).saveAsTextFile(output_tmp_dir)：
hive column預設分隔符在scala/java中的表示為“/001”，r.mkString("/001")既是將column以分隔符/001進行分割，hive在匯入時會自動識別。
repartition(partitions)是為了防止hdfs中產生大量小檔案。partitions的設定與最終結果大小有關，一般是result_size/hdfs_block_size。
sql(s"""load data inpath '$output_tmp_dir' overwrite into table $output partition (dt='$dt')""")
此處使用hive load data命令，將hdfs檔案load到hive表中。後臺操作為直接將目錄下的檔案移到hive table所在目錄，所以只是hdfs move資料的過程，執行非常快。

需要注意的是，此處要求hive建表時，已textfile格式建表。orc的方式不支援。對orc的表，可以建立臨時表使用textfile臨時儲存，然後用以下命令進行匯入：
sql(s"""load data inpath '$output_tmp_dir' overwrite into table $tmp_table partition (dt='$dt')""")
sql(s"""INSERT OVERWRITE Table $outputTable PARTITION (dt ='$outputDate') select * from $tmp_table where dt='$dt'""")
在資源配置為--num-executors 20 --executor-cores 4，結果資料為1.8g的情況下，需要額外耗時50s。好處是結果資料使用列式、壓縮方式儲存，壓縮比12.7左右。

使用優化後的方式，原有test case的耗時從半小時降到4分鐘，效率提升明顯。

如何解決spark寫hive慢的問題

在使用spark寫hive過程中，發現最耗時的部分是將產生的結果寫入hive，舉個例子，對3g*1G表的join來講，將結果使用以下方式直接寫入hive表需要超過半小時的時間： dataframe.registerTempTable("result") sql(s""

阿里雲解決spark連線hive異常

解決版本去掉w7上 hadoop\hadoop.dll 和C:\Windows\System32\hadoop.dll Exception in thread "main" java.lang.IllegalArgumentException: Error while in

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

Spark連線Hive 建立表提示"Specified key was too long; max key length is 767 bytes"解決辦法

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreException: An except

基於Spark的Hive程式設計中，“Error:(8, 37) java: 程式包org.apache.spark.sql.api.java不存在”的解決辦法

依賴Spark 1.2.0中的jar包程式設計時會出現這個問題，雖然這個Spark版本已較舊，但一些在舊的平臺上開發的人，可能還會遇到這個問題，因此將問題的解決辦法寫在這裡。報的錯誤如下圖所示：

【Spark系列7】Spark如何讀寫hive

hive資料表建立可以在hive上建立，或者使用hiveContext.sql（“create table ...."） 1）寫入hive表 case class Person(name:String,col1:Int,col2:String) val sc = ne

Spark簡單讀寫Hive

Spark版本：1.6.0 語言：Python 2.7 使用Spark寫入Hive表 # --coding=utf-8-- from pyspark import SparkContext

解決ssh連接慢，掛起在SSH2_MSG_SERVICE_ACCEPT信息之後很久的問題

log dns解析註意但是大致導致自己 conf highlight 問題現象：無論是ssh 還是 scp 都會連接很久才提示輸認證信息（註意：是連接慢）如本機IP：192.168.18.208 （Hostname: ThinkPad）目標主機：192.168

Maven的國內鏡像(解決jar下載過慢)

項目管理代碼 span 簡介 mir 服務 oschina http 一個 Maven簡介　　　　maven作為一個項目管理工具確實非常好用，結果在使用時候，你會發現下載jar速度不如自己在網上下載。之前oschina的中央倉庫可用，現在oschina的maven服務器

解決pip下載速度慢

rust lob 速度慢 oba url vim glob nbsp all 國外的pip源下載速度過慢，可以換成國內的源，這裏換成豆瓣的源。新建一個文件vim ~/.pip/pip.conf 內容為 [global]timeout = 6000index-url= ht

Spark性能調優之道——解決Spark數據傾斜（Data Skew）的N種姿勢

sca ace 便是 triplet 大小 spark 構建由於 itl 原文：http://blog.csdn.net/tanglizhe1105/article/details/51050974 背景很多使用Spark的朋友很想知道rdd

使用spark對hive表中的多列數據判重

個數 stack duplicate house transient this dataframe except cti 本文處理的場景如下，hive表中的數據，對其中的多列進行判重deduplicate。 1、先解決依賴，spark相關的所有包，pom.xml spa

Spark性能優化之道——解決Spark數據傾斜（Data Skew）的N種姿勢

至少 array 效率提升 default executors 並行處理 foreach shp 來源原創文章，轉載請務必將下面這段話置於文章開頭處。本文轉發自技術世界，原文鏈接　http://www.jasongj.com/spark/skew/ 摘要本文結合

Spark 操作Hive 流程

pen 系統權限 usr art cal tar 數據密碼連接 1.ubuntu 裝mysql 2.進入mysql： 3.mysql>create database hive （這個將來是存你在Hive中建的數據庫以及表的信息的（也就是元數據））mysql=》h

解決spark-shell輸出日誌信息過多

log4 imp spa log4j ogg evel span height level import org.apache.log4j.Logger import org.apache.log4j.LevelLogger.getLogger("org").setLeve

解決tomcat啟動超慢問題

解決tomcat啟動超慢問題解決tomcat啟動超慢問題直奔主題，不廢話1、進入java安裝目錄下的"/usr/local/java/jre/lib/security"2、編輯文件“vim java.security ”3、搜索“/securerandom.source”4、修改為“securerandom.

WIN10系統可通過bash代替CRT, 解決連接ssh慢的問題

print get ash string 文件中 eboot 文件 fig文件 reboot 1, 在server上/etc/hosts文件中把你本機的ip和hostname加入 2, 在server上/etc/ssh/sshd_config文件中修改或加入UseDNS=n

spark和hive storm mapreduce的比較

大數據Spark Streaming與Storm都可以用於進行實時流計算。但是他們兩者的區別是非常大的。其中區別之一就是，Spank Streaming和Stom的計算模型完全不一樣，Spark Streaming是基於RDD的，因此需要將一小段時間內的，比如1秒內的數據，收集起來，作為一個RDD.然後再針對

解決github範問慢的解決方法

work ntc restart 編輯 bsp sta tcl 1.4 status 編輯 sudo vim /etc/hosts 添加 # Github 151.101.44.249 github.global.ssl.fastly.net 192.30.253.113

完美解決github訪問速度慢

lin linux windows ip add address ast quick block 訪問速度 1. 解決方法 2.解決方法 1. 修改本地hosts文件 windows系統的hosts文件的位置如下：C:\Windows\System32\drivers\e

如何解決spark寫hive慢的問題

相關推薦