Hive學習(二)-資料匯入及匯出

阿新 • • 發佈：2019-01-09

首先，要知道HIve中表的列(field)是以何種方式分隔的。

Hive表中預設的記錄何欄位分割符

分隔符	描述
\n	對於文字檔案來說，每行都是一條記錄，因此換行符可以進行分隔
^A(Ctrl+A)	用於分隔欄位(列)，在create table語句中可以使用八進位制編碼\001表示
^B	用於分隔ARRAY或者struct中的元素，或用於MAP中鍵-值對之間的分隔。在create table語句中可以使用八進位制編碼\002表示
^C	用於MAC中鍵何值之間的分隔。在create table語句中可以使用八進位制編碼\003表示

對於常見的文字檔案，比如.CSV和.TSV格式的檔案，它們分別是以逗號（,）和製表符（\t）進行列分割的。

現在建立一張表：

hive>

create table jc_tunnel (
     TUNNEL_ID string comment '隧道ID',
     BEGIN_ROAD string comment '起始公里標',
     CREATE_BY string comment '建立人',
     CREATE_DATETIME string comment '建立時間',
     DIRECTION_ID string comment '行別表ID',
     END_ROAD string comment '截止公里標',
     MEMO string comment '備註資訊',
     SITE_ID string comment '區間戰場',
     TUNNEL_NAME string comment '隧道名稱',
     TUNNEL_NO string comment '隧道編號',
     UPDATE_BY string comment '更新人',
     UPDATE_DATETIME string comment '更新時間',
     ORDER_NUM string comment '排序號'
     )
     comment '隧道表'
     row format delimited
     fields terminated by ',';

該表以逗號進行列分隔。

一.資料匯入

1.從檔案匯入

現在上傳資料到MAC1SN中。資料在檔案jc_tunnel.csv中，該檔案在本地檔案系統的使用者主目錄（~）下面。

執行命令：load data local inpath 'jc_tunnel.csv' into table jc_tunnel;

這裡加了local關鍵字，表示是從本地檔案系統中選擇檔案上傳；如果不加local，表示是從分散式檔案系統中選擇檔案上傳

可以看到資料已經上傳成功了。

然後檢視一下檔案上傳的地方：

這個時候，jc_tunnel.csv是作為表jc_tunnel的資料存在的，因此位於表目錄的下面，當然也可以檢視該資料。

執行命令：hive> dfs -cat /user/hive/warehouse/db_test.db/jc_tunnel/jc_tunnel.csv;

與原始檔案的內容一致：

再從表中查詢：

2.查詢匯入

先建立一張新表(jc_tunnel_new)，結構和jc_tunnel一樣。

hive> create table jc_tunnel_new like jc_tunnel;

現在將從jc_tunnel查詢到的資料匯入到jc_tunnel_new:

hive> insert into jc_tunnel_new select * from jc_tunnel limit 0,3;

檢視匯入結果：

可以看到資料匯入成功了。

3.查詢建立表並載入資料

hive> create table jc_tunnel_new_s as select * from jc_tunnel limit 0,4;

4.分割槽表匯入

先將之前建立的jc_tunnel,jc_tunnel,jc_tunnel_s表刪除。

建立一張分割槽表

create table jc_tunnel (
     TUNNEL_ID string comment '隧道ID',
     BEGIN_ROAD string comment '起始公里標',
     CREATE_BY string comment '建立人',
     CREATE_DATETIME string comment '建立時間',
     DIRECTION_ID string comment '行別表ID',
     END_ROAD string comment '截止公里標',
     MEMO string comment '備註資訊',
     SITE_ID string comment '區間戰場',
     TUNNEL_NAME string comment '隧道名稱',
     TUNNEL_NO string comment '隧道編號',
     UPDATE_BY string comment '更新人',
     UPDATE_DATETIME string comment '更新時間',
     ORDER_NUM string comment '排序號'
     )
     comment '隧道表'
     partitioned by (area string comment '地區')
     row format delimited
     fields terminated by ',';

注意：建立分割槽表時，partitioned一定要寫在row等關鍵字的最前面。comment要寫在partitioned前面。Hive的表分割槽實際上就是一個目錄，且分割槽欄位不能與表的欄位重複。

匯入資料：hive> load data local inpath '/home/zhang/jc_tunnel.csv' into table jc_tunnel partition ( area = 'GZ' );

匯入資料時，分割槽名稱不能有中文字元。

可以看到，剛剛上傳的檔案是存在分割槽目錄下的。

二.資料匯出

將查詢的結果匯出到目標檔案中：

方法1：

[email protected]:~$ hive -S -e 'select t.tunnel_id,t.tunnel_name from db_test.jc_tunnel t limit 0,2' > query.txt

其中的-e命令表示命令執行結束後hive CLI立即退出；-S命令可以開啟靜默模式，這樣在輸出結果中去掉“OK”，“Time taken”等行以及其他一些無關緊要的東西。

方法2：

hive> insert overwrite local directory '/home/zhang/query' select t.tunnel_id,t.tunnel_name from db_test.jc_tunnel t limit 0,2;//將查詢結果匯入資料到本地的query資料夾中

匯入完成後，檢視目錄。

如果匯入時不加入local關鍵字，則是匯入到hdfs中。可以使用"dfs -cat 匯入目錄"檢視匯入結果。

方法3：

使用命令：

hive>export table jc_tunnel to '/user/zhang/export';

該命令是將表匯出到分散式檔案系統中，且匯出的是表的結構與資料。

Hive學習(二)-資料匯入及匯出

首先，要知道HIve中表的列(field)是以何種方式分隔的。Hive表中預設的記錄何欄位分割符分隔符描述\n對於文字檔案來說，每行都是一條記錄，因此換行符可以進行分隔^A(Ctrl+A)用於分隔欄位(列)，在create table語句中可以使用八進位制編碼\001表示^B

資料結構與演算法學習--二叉樹及二叉搜尋樹

可以看下以前對數的總結https://blog.csdn.net/sjin_1314/article/details/8507490 下面是二叉樹的遍歷，建立及銷燬的函式實現，層次遍歷依賴佇列；佇列實現可以去github上檢視https://github.com/jin13417/al

MongoDB學習（六）資料庫的備份、還原、匯入及匯出

MongoDB官方提供了兩套資料匯入匯出工具，一般來說，進行整庫匯出匯入時使用mongodump和mongorestore，這一對組合操作的資料是BSON格式，進行大量dump和res

hive 的資料匯入和匯出

【匯入】 1.load data [local] -->本地，將資料檔案copy到hdfs對應的目錄，適合大部分場景使用 load data local inpath ' /opt/datas/emp.tx' into table emp; load data local inpath

sqoop學習2（資料匯入與匯出命令）

最近學習了下這個導資料的工具，但是在export命令這裡卡住了，暫時排不了錯誤。先記錄學習的這一點吧sqoop是什麼sqoop（sql-on-hadoop）：是用來實現結構型資料（如關係型資料庫）和hadoop之間進行資料遷移的工具。它充分利用了mapreduce的並行特點以

SpringMVC學習(二)——SpringMVC架構及組件

返回 pin 可能存在過程模式擴展攔截器處理流相信大家通過前文的學習，已經對SpringMVC這個框架多少有些理解了。還記得上一篇文章中SpringMVC的處理流程嗎？這個圖大致描述了SpringMVC的整個處理流程，這個流程圖還是相對來說比較容易懂的，下面

Scrapy學習(二)、安裝及專案結構

一、安裝 1、安裝pywin32,下載地址：https://sourceforge.net/projects/pywin32/files/pywin32/ 我選擇的是Build 221,點進去，根據自己電腦的python版本下載對應的版本下載下來後，直接執行exe檔案，無腦下一步，直至安裝完成

使用spark將hive中的資料匯入到mongodb

import com.huinong.truffle.push.process.domain.common.constant.Constants; import com.mongodb.spark.MongoSpark; import com.mongodb.spark.config.WriteConf

Matlab資料匯入、匯出

在MATLAB中匯入資料意味著從外部檔案載入資料。importdata函式允許載入不同格式的各種資料檔案。它有以下五種形式 - 序號函式描述 1 A = importdata(filename) 從檔案

java 實現的excel資料匯入及匯入模板下載

/** * 下載匯入資料模板 * @param response * @param redirectAttributes *

Hive中表的資料匯入(五種方式)

目錄總結： load： insert：建立表並載入資料（As Select）： location： import：總結：總結： hive中一共有五種資料匯出的方式： ①：load data方式，如果路徑是local是追加，若為HDFS則

Hive學習(二)知識點整理

Hive 一、什麼是Hive？二、Hive可以做什麼？三、Hive的表種類四、Hive建立表的三種方式五、Hive插入資料的方式六、Hive檢視七、Hive索引八、Hive環境搭建和部署一、什麼

excel資料匯入或者匯出時變為科學計數法

在我們進行excel表格的的匯入或者匯出時，有時可能因為excel中的數字過長，自動轉化為科學計數法，那麼我們進行匯入或者匯出的時候就會有問題，匯入或者匯出之後就會發現，我們匯入或者匯出的數字並不像我們想象中的那樣，而是一個科學計數法式的數字。所以我們要先進行數值的轉換，將科學技術法格式的數字轉化為

如何快速地將Hive中的資料匯入ClickHouse

如何快速地將Hive中的資料匯入ClickHouse ClickHouse是面向OLAP的分散式列式DBMS。我們部門目前已經把所有資料分析相關的日誌資料儲存至ClickHouse這個優秀的資料倉庫之中，當前日資料量達到了300億。在之前的文章如何快速地把HDFS中的資料

c# +SQL+OFFICE excel出庫資料查詢及匯出

1.效果圖： 2.FORM1 SOURCE CODE: using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Draw

Mysql的資料匯入與匯出

2018年11月14日 18:38:32 wyh1128 閱讀數：6 標籤： mysql

Navicat Premium -- 資料匯入和匯出

一、匯入資料——將Excel 檔案匯入到資料庫 ● 執行“匯入嚮導”，選擇匯入資料的型別，選擇表型別：Excel 檔案； ● 選擇檔案資料來源，即選擇需要匯入的 Excel 檔案的位置； ● 選擇需要匯入的表，

PHPExcel整合對資料匯入和匯出

<?php /** * Created by PhpStorm. * User: admin * Date: 2017/8/15 * Time: 9:07 */ class User extends CI_Controller { public function __co

mysql 表資料匯入和匯出

一、匯出資料庫用mysqldump命令（注意mysql的安裝路徑，即此命令的路徑）： 1、匯出資料和表結構： mysqldump -u使用者名稱 -p密碼資料庫名 > 資料庫名.sql #/usr/local/mysql/bin/ mysqldump -uro

Confluence 6 資料匯入和匯出

Confluence 管理員和使用者可以從各種方法向 Confluence 中匯入資料。針對不同的匯入方式，有關許可權的要求也是不相同的。請參考頁面 Import Content Into Confluence 中內容。 (adsbygoogle = window.ad

Hive學習(二)-資料匯入及匯出

相關推薦