【Spark系列7】Spark如何讀寫hive

阿新 • • 發佈：2019-02-06

hive資料表建立可以在hive上建立，或者使用hiveContext.sql（“create table ...."）

1）寫入hive表

case class Person(name:String,col1:Int,col2:String)
val sc = new org.apache.spark.SparkContext  
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
import hiveContext.implicits._
hiveContext.sql("use DataBaseName")
val data = sc.textFile("path").map(x=>x.split("\\s+")).map(x=>Person(x(0),x(1).toInt,x(2)))
data.toDF().insertInto("tableName")

2）寫入hive分割槽中

case class Person(name:String,col1:Int,col2:String)
val sc = new org.apache.spark.SparkContext  
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
import hiveContext.implicits._
hiveContext.sql("use DataBaseName")
val data = sc.textFile("path").map(x=>x.split("\\s+")).map(x=>Person(x(0),x(1).toInt,x(2)))
data.toDF().registerTempTable("table1")
hiveContext.sql("insert into table2 partition(date='2015-04-02') select name,col1,col2 from table1")

將資料寫入分割槽表的思路是：首先將DataFrame資料寫入臨時表，之後是由hiveContext.sql語句將資料寫入hive分割槽表中。

3）優化

將檔案存為符合hive table檔案的格式，然後使用hive load將產生的結果檔案直接move到指定目錄下。程式碼如下：

result.rdd.map { r => r.mkString("\001") }.repartition(partitions).saveAsTextFile(output_tmp_dir)
sql(s"""load data inpath '$output_tmp_dir' overwrite into table $output partition (dt='$dt')""")

hive column預設分隔符在scala/java中的表示為“/001”，r.mkString("/001")既是將column以分隔符/001進行分割，hive在匯入時會自動識別。
使用hive load data命令，將hdfs檔案load到hive表中。後臺操作為直接將目錄下的檔案移到hive table所在目錄，所以只是hdfs move資料的過程，執行非常快。

需要注意的是，此處要求hive建表時，以textfile格式建表。

參考：

http://blog.csdn.net/zgc625238677/article/details/53928320

如果是命令列操作，可以參考http://blog.csdn.net/fansy1990/article/details/53401102

《如何解決spark寫hive慢的問題》http://blog.csdn.net/lulynn/article/details/51543567

【Spark系列7】Spark如何讀寫hive

hive資料表建立可以在hive上建立，或者使用hiveContext.sql（“create table ...."） 1）寫入hive表 case class Person(name:String,col1:Int,col2:String) val sc = ne

【原創】大數據基礎之Spark（7）spark讀取文件split過程（即RDD分區數量）

ali ces ORC row mapreduce 獲取 sse repo 大致 spark 2.1.1 spark初始化rdd的時候，需要讀取文件，通常是hdfs文件，在讀文件的時候可以指定最小partition數量，這裏只是建議的數量，實際可能比這個要大（比如文件特別多

【原創】大資料基礎之Spark（7）spark讀取檔案split過程（即RDD分割槽數量）

spark 2.1.1 spark初始化rdd的時候，需要讀取檔案，通常是hdfs檔案，在讀檔案的時候可以指定最小partition數量，這裡只是建議的數量，實際可能比這個要大（比如檔案特別多或者特別大時），也可能比這個要小（比如檔案只有一個而且很小時），如果沒有指定最小partition數量，初始化完成的

【Spark系列2】reduceByKey和groupByKey區別與用法

在spark中，我們知道一切的操作都是基於RDD的。在使用中，RDD有一種非常特殊也是非常實用的format——pair RDD，即RDD的每一行是（key, value）的格式。這種格式很像Python的字典型別，便於針對key進行一些處理。針對pair RDD這樣的

【python-ini】python讀寫ini文件

clas edr print 代碼 cells order sta read param 【python-ini】python讀寫ini文件本文實例講述了Python讀寫ini文件的方法。分享給大家供大家參考。具體如下：比如有一個文件update.ini，裏面有這些

14【華為HCIE-Storage】Cache讀寫鏡像&一高低水位&二寫盤&三讀寫策略&四讀機制

HCIE storage hostman ------------------------------------重要說明------------------------------------以下部分內容來網絡，部分自華為存儲官方教材具體教材內容請移步華為存儲官網進行教材下載網絡引用內容

【已解決！】spark程式報錯：java.lang.IndexOutOfBoundsException: toIndex = 9

該篇文章意於記錄報錯，也給遇到相同問題的小夥伴提供排錯思路！但是本人也沒有什麼好的解決方法，如果有，我會更新此文章問題已經解決，請大家拉到最下面↓↓↓↓↓ 記錄下報錯：寫了段spark程式碼，然後報錯了 2018-07-30 17:19:28,854 WARN [task-re

【Spark核心原始碼】Spark基本概念及特點

目錄 Hadoop MapReduce的不足 Spark的基本概念 RDD DAG Partition NarrowDependency ShuffleDependency Job Stage Task Shuffle Spark的基本元件 Clu

【Spark核心原始碼】Spark原始碼環境搭建

目錄準備條件下載spark原始碼，並解壓開啟spark原始碼下的pom.xml檔案，修改對應的java和intellij裡的maven版本開啟intellij，Inport Project，將原始碼匯入intellij中問題總結（十分重要） Maven編譯打包前的準

【python技巧實用篇】python讀寫檔案、jieba自定義字典

import jieba from astropy.table.np_utils import join import os import sys import jieba.posseg as p

【OpenCV3】視訊讀寫cv::VideoCapture和cv::VideoWriter

OpenCV3和OpenCV2類似，視訊的讀、寫操作，分別通過cv::VideoCapture和cv::VideoWriter兩個類來實現。 1、視訊的讀取操作cv::VideoCapture cv::VideoCapture既支援視訊檔案的讀取，也支

【Linux】磁碟讀寫測試

一、如何檢視當前磁碟的IO使用情況使用命令：iotop Total DISK READ: 3.89 K/s | Total DISK WRITE: 0.00 B/s TID PRIO USER DISK READ DISK WRITE SWAPIN IO>

【OSS】Bucket讀寫許可權

使用者建立的Bucket總共有三種許可權： /*私有 * 只允許自己讀寫操作，其他使用者沒有許可權 */ CannedAccessControlList acl_private = CannedAccessControlList.Private; /*公共讀寫

【Qt】QSettings讀寫登錄檔、配置檔案【轉】

簡述一般情況下，我們在開發軟體過程中，都會快取一些資訊到本地，可以使用輕量級資料庫sqlite，也可以操作登錄檔、讀寫配置檔案。關於QSettings的使用前面已經介紹過了，比較詳細，見“更多參考”，下面介紹下QSettings常用功能-讀寫登錄檔、配置檔案。簡述優點讀

【原創】.NET讀寫Excel工具Spire.Xls使用(3)單元格控制

　　前一篇文章：“.NET讀寫Excel工具Spire.Xls使用(2)Excel檔案的控制”給大家介紹了C#使用Spire.XLS來控制Excel檔案的基本功能和相關實踐程式碼。這篇文章將重點介紹C#操作Excel檔案時，對Excel單元格的控制。　　以前在使用NPOI的時候，其實印象最深的還是

【原創】.NET讀寫Excel工具Spire.Xls使用(1)入門介紹

　　在.NET平臺，操作Excel檔案是一個非常常用的需求，目前比較常規的方法有以下幾種： 1.Office Com元件的方式：這個方式非常累人，微軟的東西總是這麼的複雜，使用起來可能非常不便，需要安裝Excel，對於伺服器，有時候還需要為配置IIS許可權。折騰人，看到很多人在群裡面使用這個東西，出現各種抓

【原創】.NET讀寫Excel工具Spire.Xls使用(2)Excel檔案的控制

　　前一篇文章：“.NET操作Excel利器Spire.Xls使用(1)入門介紹 ”給大家介紹了Spire.XLS的基本功能和一些比較。這篇文章將重點介紹C#操作Excel檔案時，對Excel檔案本身的相關設定，全域性控制的內容。因為這也是C#讀寫Excel檔案時經常碰到的文章，也是我在使用過程中的一

【原創】.NET讀寫Excel工具Spire.Xls使用(4)對資料操作與控制

　　Spire.Office for .NET是E-iceblue開發的一種企業級.NET Office編輯的軟體集合，包括Spire.Doc，Spire XLS，Spire.PDF，Spire.BarCode等等。.NET平臺的開發人員可以使用Spire.Office for .NET輕鬆的操作含有

【原創】.NET讀寫Excel工具Spire.Xls使用(5)重量級的Excel圖表功能

　　前一篇文章：“.NET讀寫Excel工具Spire.Xls使用(4)對資料操作與控制”給大家介紹了Spire.XLS對資料的控制相關功能，這一篇給大家介紹Spire.XLS最大的亮點所在，C#控制Excel生成圖表。將介紹C#生成不同型別圖表的方法，並介紹Excel圖表的相關操作，如調整大小，儲存

【 D3.js 入門系列 --- 7 】理解 update, enter, exit 的使用

轉載請註明出處，謝謝。在前面幾節中反覆出現瞭如下程式碼： svg.selectAll("rect") .data(dataset) .enter() .append("r

【Spark系列7】Spark如何讀寫hive

相關推薦