Hive筆記之導出查詢結果

阿新 • • 發佈：2018-07-14

date htm borde hdf 分區表 bottom -s creat 結果集

導出到本地

導出查詢結果到本地：

INSERT OVERWRITE LOCAL DIRECTORY "/tmp/hive-result/t_visit_video"
SELECT * FROM t_visit_video ;

導出到的本地路徑不必已經存在，會自動創建父目錄，導出的查詢結果會是一個文件夾，文件夾下存放著本次查詢的結果，如果結果集比較大的話會分塊存放。

技術分享圖片

每個數據塊還會有一個CRC校驗文件，此文件為隱藏文件，用於校驗此塊的數據有效性。

但是當查看導出的數據文件時發現悲劇了，列與列之間好像是沒有東西分隔啊：

技術分享圖片

其實是有東西分隔的，這個字符就是^A，只不過這是一個不可見字符，使用cat打印不出，這個字符在vim中可見，使用vim編輯一下它：

技術分享圖片

看到了，列與列之間確實是有一個^A分隔符的。

如果不希望使用^A作為分隔符，可以在導出數據的時候使用ROW FORMAT DELIMITED FIELDS TERMINITED BY ","來指定列與列之間的分隔符，來重新導出一下：

INSERT OVERWRITE LOCAL DIRECTORY "/tmp/hive-result/t_visit_video_002"
ROW FORMAT DELIMITED FIELDS TERMINATED BY ","
SELECT * FROM t_visit_video ;

再查看一下導出的本地文件，發現列與列之間的分隔符是逗號了：

技術分享圖片

也許你會認為自己已經得到了CSV格式，如果這樣的話就踩坑了，因為它並不符合CSV的RFC4180。簡單地來證明一下，在上面的表插入一行巨多逗號然後重新導出：

INSERT INTO t_visit_video PARTITION (day="20180604") SELECT "foo,foo,foo", "bar,bar,bar";
INSERT OVERWRITE LOCAL DIRECTORY "/tmp/hive-result/t_visit_video_003"
ROW FORMAT DELIMITED FIELDS TERMINATED BY ","
SELECT * FROM t_visit_video ;

查看導出結果：

技術分享圖片

註意看最後一行，如果按照CSV的格式去解析的話最後得到的結果一定是錯的，一定要確保所指定的列分隔符不包含在列數據中出現，這是在導出數據指定分隔時需要註意的一個坑。

Hive導出數據時指定分隔符的語法長的令人發指，說實話我是記不住的，這裏可以耍個小聰明，可以先將數據按照默認的分隔符^A導出，然後使用tr將^A替換為想要的分隔符：

技術分享圖片

註意這個^V是先按Ctrl+V，告訴終端我下一個字符要輸入一個特殊字符，然後按CTRL+A打出。

註：使用默認分隔符導出的Hive查詢結果在程序中處理的時候使用split("\x01")或者split("\001")來切分列。

導出到HDFS

導出到HDFS跟導出到本地差不多，只是沒有LOCAL，加LOCAL後面的是本地路徑，否則的話就是HDFS路徑：

INSERT OVERWRITE DIRECTORY "/test/hive-export/t_visit_video" 
SELECT * FROM t_visit_video;

查看HDFS上導出的目錄：

[root@foobar ~]# hadoop fs -ls /test/hive-export/t_visit_video
Found 1 items
-rwxr-xr-x   1 root supergroup        283 2018-06-08 00:04 /test/hive-export/t_visit_video/000000_0

和導出到本地一樣，只不過是位置換到了HDFS而已。

同樣的，導出到HDFS也可以指定列分隔符：

INSERT OVERWRITE DIRECTORY "/test/hive-export/t_visit_video_002" 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ","
SELECT * FROM t_visit_video;

查看列分隔符是否設置正確：

[root@foobar ~]# hadoop fs -ls /test/hive-export/t_visit_video_002
Found 1 items
-rwxr-xr-x   1 root supergroup        283 2018-06-08 00:12 /test/hive-export/t_visit_video_002/000000_0
[root@foobar ~]# hadoop fs -cat /test/hive-export/t_visit_video_002/000000_0
張三,大唐雙龍傳,20180516
李四,天下無賊,20180516
張三,神探狄仁傑,20180516
李四,霸王別姬,20180516
李四,霸王別姬,20180516
王五,機器人總動員,20180516
王五,放牛班的春天,20180516
王五,盜夢空間,20180516
foo,foo,foo,bar,bar,bar,20180604

導出到其它Hive表

導出到其它表的語法和導出到目錄類似，只是目的地變成了表名，如果目標表是個分區表的話還要指定所要插入的分區。

下面是一個簡單的例子，先復制一份表結構，然後將其中一個分區的數據拷貝一份：

CREATE TABLE t_visit_video_20180516 LIKE t_visit_video;
INSERT OVERWRITE TABLE t_visit_video_copy PARTITION (day="20180516") 
SELECT * FROM t_visit_video WHERE day="20180516";

同樣的，這裏可以使用INTO表示追加到指定的分區，也可以使用OVERWRITE表示覆蓋指定分區。

上面的方式適用於表已經存在的情況，如果想使用一個新表來保存查詢結果但是又不想手動創建的話，可以讓其自動創建表結構:

CREATE TABLE t_visit_video_20180516 AS SELECT * FROM t_visit_video WHERE day=‘20180516‘;

這種方法常用於將查詢結果集導出為臨時表時使用。

定時查詢並備份結果集

hive -e可以用來指定一些命令，hive -f可以用來指定一個腳本文件，可以將導出腳本的邏輯寫個小腳本，借助於crontab定時執行此腳本，即可實現對Hive表查詢並備份。

下面是一個小小的例子，定時將hive表前一天的張三看過的電影導出到某個目錄下，同時記錄操作日誌：

#! /bin/bash

day=`date ‘+%Y%m%d‘ -d ‘day ago‘`
if [ $1 ]; then 
        day=$1
fi
hive="/opt/hive/apache-hive-2.3.3-bin/bin/hive"
dest_dir="/tmp/hive-result/t_visit_video_$day"
log_file="`dirname $0`/backup.log"

echo "[`date ‘+%F %T‘`] $day begin bakcup" >> $log_file
hive -e "INSERT OVERWRITE LOCAL DIRECTORY ‘$dest_dir‘ SELECT * FROM test_003.t_visit_video WHERE day=‘$day‘ AND username=‘張三‘"
echo "[`date ‘+%F %T‘`] $day begin end" >> $log_file

將上面的腳本加入到crontab即可實現定時備份：

0 1 * * * /root/hive/backup/backup.sh

Hive筆記之導出查詢結果

date htm borde hdf 分區表 bottom -s creat 結果集導出到本地導出查詢結果到本地：INSERT OVERWRITE LOCAL DIRECTORY "/tmp/hive-result/t_visit_video" SELECT *

MongoDB CookBook讀書筆記之導入導出

MongoDB本文主要介紹MongoDB的導入導出操作。一、導入數據 MongoDB支持csv格式的數據導入。本節除了導入MongoDB CookBook書本提供的測試數據，還介紹了其他格式的csv文件數據導入。 [root@hdp04 ~]# wget https://raw.githubusercont

mysql數據庫導入導出查詢修改表記錄

oca cal 復制 lds etc gid type let 刪除 mysql數據導入導出：導入：把系統的文件的內容，保存到數據庫的表裏導入數據的基本格式：mysql> load data infile "文件名" into table 表名 fields t

導出查詢數據（大數據量）

大數據量 sql 向導文檔語句大數據問題步驟 alt 1、右擊數據庫，“任務”--“導出數據” 2、向導頁點擊“下一步”，然後錄入登陸信息，再點擊“下一步” 3、選擇導出類型及路徑，然後點擊“下一步”（如：Excel文檔） 4、選擇數據源，直

項目筆記：導出XML和導出全部XML功能

beanutils xml文件 close exc esc cnblogs word else swa 　　前臺代碼： //導出一條Xml function btn_createXml(){ var title =$("#editButton").attr("ti

ActiveReports之導出excel

ring server ports ctp string odin amount stream rtp 前提概要參考：http://www.cnblogs.com/liandy0906/p/7936524.html DbContextBase d

項目筆記：導出Excel功能分sheet頁插入數據

mkdir system getpara creates service posit ade quest mst 　　導出Excel功能分sheet頁處理數據： /*導出EXCEL*/ public void createExcel() { log.info("導

Framework7學習筆記之彈出層(Popover)

-a pan work open body ron ram 信息筆記一：彈出層或者說，稱呼為“懸浮層”更合適。用 popover 臨時彈出一小塊懸浮層顯示一些信息，用戶點擊popover窗口外面區域時會關閉它。二：定義Popover

php 多語言(UTF-8編碼)導出Excel、CSV亂碼解決辦法之導出UTF-8編碼的Excel、CSV

csv tex 完整多語繁體 HP 項目 .html agen 轉自： https://www.cnblogs.com/kclteam/p/5278926.html 新項目，大概情況是這樣的：可能存在多國、不同語種使用者，比喻有中文、繁體中文，韓文、日本等等，開發

Java逆向基礎之導出內存中的類一

java反編譯為什麽需要這個，因為在之前的博文中提到，為了增加逆向的難度，部分軟件會對部分關鍵方法和類進行隱藏，所以我們需要把這個類從內存中拿出來。本文介紹使用javaagent的方法，下一篇介紹dumpclass，兩種方法各有利弊。本文需要用到第三方jar為：javassist-3.20.0-GA.jar，

Java逆向基礎之導出內存中的類二

Javadump內存類我們有時候可能會遇到暫時無法使用javaagent的情況，如服務器上的Web應用重啟太耗時，這是我們可以考慮用下面的方法。使用dumpclass，目前dumpclass在Windows上表現不佳，建議在Linux上使用dumpclass項目地址https://github.com/hen

hive數據導出到本地目錄拋異常

uwa pac style ica hadoop PE ini launched edt 經過反復試驗，最終重啟hdfs和hive解決問題 1 hive> insert overwrite local directory ‘/Users/wooluwalker/

Android so註入(inject)和Hook技術學習（三）——Got表hook之導出表hook

open bin fopen store 模塊技術學習個數 where detail 前文介紹了導入表hook，現在來說下導出表的hook。導出表的hook的流程如下。1、獲取動態庫基值　　 1 void* get_module_base(pid_t pid,

MySQL基礎之導出導入之文本文件

style ron 字符數 escape strong 命令導出導入 nes lds 1、使用SELECT.......INTO OUTFILE導出文本文件該文件被創建在服務器主機上，因此必須有文件寫入權限(FILE權限)，才能使用此語法語法： select co

Hive筆記之巨集（macro）

一、啥是巨集巨集可以看做是一個簡短的函式，或者是對一個表示式取別名，同時可以將這個表示式中的一些值做成變數呼叫時傳入，比較適合於做分析時為一些臨時需要用到很多次的表示式操作封裝一下取個簡短點的別名來呼叫。巨集只在當前會話有效，當退出hive控制檯再進入時上次建立的巨集就丟失了，如果需要永久

【學習筆記之Openlayers3】查詢分析篇（第五篇）

select count(*) from "+sourceName+" where 1=1 "; String sql = "select gid as gid,fname as name,ST_AsText(geom) as geowkt from "+sourceName+" wher

Linux 路由學習筆記之三路由查詢流程分析

上一節分析了路由的新增，本節接著分析路由的查詢流程，路由查詢流程也是被最多使用的介面。當裝置三層協議棧接收到資料包、傳送資料包等操作時，都要進行路由查詢操作。對於路由的查詢，又分為兩個查詢過程，即不支援策略路由時的路由查詢函式，以及支援策略路由時的路由查詢流程，顯然支

WinPE基礎知識之導出表

rom 順序文件 exp 兩個虛擬地址 src color 個數 // 導出的東西包括函數（變量、類）地址，序號，函數（變量、類）名 typedef struct _IMAGE_EXPORT_DIRECTORY { DWORD Characteris

Mybatis學習筆記之---多表查詢(1)

Mybatis多表查詢（1）（一）舉例（使用者和賬戶）一個使用者可以有多個賬戶一個賬戶只能屬於一個使用者(多個賬戶也可以屬於同一個使用者) （二）步驟 1、建立兩張表:使用者表，賬戶表，讓使用者表和賬戶表之間具備一對多的關係:需要使用外來鍵在賬戶表中新增 2、建立兩個實體類:使用者實體類和賬戶實體類，讓

C#可擴展編程之MEF學習筆記（三）：導出類的方法和屬性（轉）

學習說了如何 mod ati dem ont num imp 前面說完了導入和導出的幾種方法，如果大家細心的話會註意到前面我們導出的都是類，那麽方法和屬性能不能導出呢？？？答案是肯定的，下面就來說下MEF是如何導出方法和屬性的。　　還是前面的代碼，第二篇中已經提供了下

Hive筆記之導出查詢結果

導出到本地

導出到HDFS

導出到其它Hive表

定時查詢並備份結果集

相關推薦