Hive之——Hive支援的檔案格式與壓縮演算法(1.2.1)

阿新 • • 發佈：2019-02-20

概述

只要是配置了正確的檔案型別和壓縮型別(比如Textfile+Gzip、SequenceFile+Snappy等)，Hive都可以按預期讀取並解析資料，提供SQL功能。

SequenceFile本身的結構已經設計了內容進行壓縮。所以對於SequenceFile檔案的壓縮，並不是先生成SequenceFile檔案，再對檔案進行壓縮。而是生成SequenceFile檔案時，對其中的內容欄位進行壓縮。最終壓縮後，對外仍體現為一個SequenceFile。

RCFile、ORCFile、Parquet、Avro對於壓縮的處理方式與SequenceFile相同。

檔案格式

Textfile
SequenceFile
RCFile
ORCFile
Parquet
Avro

壓縮演算法的編解碼器

序號	壓縮格式	演算法	多檔案	可分割性	工具	工具壓縮後副檔名
1	DEFLATE	DEFLATE	不	不	無	.deflate
2	Gzip	DEFLATE	不	不	gzip	.gz
3	bzip2	bzip2	不	是	bzip2	.bz2
4	LZO	LZO	不	不	lzop	.lzo
5	LZ4	???	??	??	???	???
6	Snappy	???	??	??	???	???
7	ZLIB	???	??	??	???	???
8	ZIP	DEFLATE	是	是，在檔案範圍內	zip	.zip

TEXTFILE

文字檔案,非壓縮

--建立一個表，格式為文字檔案：
CREATE EXTERNAL TABLE student_text 
 (id STRING, name STRING)
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY ',' 
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
--匯入資料到此表中,將啟動MR任務
INSERT OVERWRITE TABLE student_text SELECT * FROM student;

可檢視到生成的資料檔案的格式為非壓縮的文字檔案：

hdfs dfs -cat /user/hive/warehouse/student_text/000000_0

1001810081,cheyo
1001810082,pku
1001810083,rocky
1001810084,stephen
2002820081,sql
2002820082,hello
2002820083,hijj
3001810081,hhhhhhh
3001810082,abbbbbb

文字檔案,DEFLATE壓縮

--建立一個表，格式為檔案檔案：
CREATE TABLE student_text_def (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
--設定壓縮型別為Gzip壓縮
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec; 
--匯入資料：
INSERT OVERWRITE TABLE student_text_def SELECT * FROM student;
--檢視資料
SELECT * FROM student_text_def;

檢視資料檔案,可看到資料檔案為多個.deflate檔案。

hdfs dfs -ls /user/hive/warehouse/student_text_def/
-rw-r--r--   2015-09-16 12:48 /user/hive/warehouse/student_text_def/000000_0.deflate
-rw-r--r--   2015-09-16 12:48 /user/hive/warehouse/student_text_def/000001_0.deflate
-rw-r--r--   2015-09-16 12:48 /user/hive/warehouse/student_text_def/000002_0.deflate

文字檔案,Gzip壓縮

--建立一個表，格式為檔案檔案：
CREATE TABLE student_text_gzip (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
--設定壓縮型別為Gzip壓縮
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
--匯入資料：
INSERT OVERWRITE TABLE student_text_gzip SELECT * FROM student;
--檢視資料
SELECT * FROM student_text_gzip;

檢視資料檔案,可看到資料檔案為多個.gz檔案。解開.gz檔案，可以看到明文文字：

hdfs dfs -ls /user/hive/warehouse/student_text_gzip/
-rw-r--r--  2015-09-15 10:03 /user/hive/warehouse/student_text_gzip/000000_0.gz
-rw-r--r--  2015-09-15 10:03 /user/hive/warehouse/student_text_gzip/000001_0.gz
-rw-r--r--  2015-09-15 10:03 /user/hive/warehouse/student_text_gzip/000002_0.gz

文字檔案,Bzip2壓縮

--建立一個表，格式為檔案檔案：
CREATE TABLE student_text_bzip2 (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
--設定壓縮型別為Bzip2壓縮：
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.BZip2Codec;
--匯入資料
INSERT OVERWRITE TABLE student_text_bzip2 SELECT * FROM student;
--檢視資料：
SELECT * FROM student_text_bzip2;

檢視資料檔案,可看到資料檔案為多個.bz2檔案。解開.bz2檔案，可以看到明文文字：

hdfs dfs -ls /user/hive/warehouse/student_text_bzip2
-rw-r--r--  2015-09-15 10:09 /user/hive/warehouse/student_text_bzip2/000000_0.bz2
-rw-r--r--  2015-09-15 10:09 /user/hive/warehouse/student_text_bzip2/000001_0.bz2
-rw-r--r--  2015-09-15 10:09 /user/hive/warehouse/student_text_bzip2/000002_0.bz2

文字檔案,lzo壓縮

--建立表
CREATE TABLE student_text_lzo (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
--設定為LZO壓縮
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;
--匯入資料
INSERT OVERWRITE TABLE student_text_lzo SELECT * FROM student;
--查詢資料
SELECT * FROM student_text_lzo;

檢視資料檔案,可看到資料檔案為多個.lzo壓縮。解開.lzo檔案，可以看到明文文字。

未實測,需要安裝lzop庫

文字檔案,lz4壓縮

--建立表
CREATE TABLE student_text_lz4 (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
--設定為LZ4壓縮
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.Lz4Codec;
--匯入資料
INSERT OVERWRITE TABLE student_text_lz4 SELECT * FROM student;

檢視資料檔案,可看到資料檔案為多個.lz4壓縮。使用cat檢視.lz4檔案，可以看到是壓縮後的文字。

hdfs dfs -ls /user/hive/warehouse/student_text_lz4
-rw-r--r-- 2015-09-16 12:06 /user/hive/warehouse/student_text_lz4/000000_0.lz4
-rw-r--r-- 2015-09-16 12:06 /user/hive/warehouse/student_text_lz4/000001_0.lz4
-rw-r--r-- 2015-09-16 12:06 /user/hive/warehouse/student_text_lz4/000002_0.lz4

文字檔案,Snappy壓縮

--建立表
CREATE TABLE student_text_snappy (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
--設定壓縮
SET hive.exec.compress.output=true;
SET mapred.compress.map.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodec;
--匯入資料
INSERT OVERWRITE TABLE student_text_snappy SELECT * FROM student;
--查詢資料
SELECT * FROM student_text_snappy;

檢視資料檔案,可看到資料檔案為多個.snappy壓縮檔案。使用cat檢視.snappy檔案，可以看到是壓縮後的文字:

hdfs dfs -ls /user/hive/warehouse/student_text_snappy
Found 3 items
-rw-r--r--   2015-09-15 16:42 /user/hive/warehouse/student_text_snappy/000000_0.snappy
-rw-r--r--   2015-09-15 16:42 /user/hive/warehouse/student_text_snappy/000001_0.snappy
-rw-r--r--   2015-09-15 16:42 /user/hive/warehouse/student_text_snappy/000002_0.snappy

SEQUENCEFILE

Sequence檔案,DEFLATE壓縮

--建立一個表，格式為檔案檔案：
CREATE TABLE student_seq_def (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS SEQUENCEFILE;
--設定壓縮型別為Gzip壓縮
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec; 
--匯入資料：
INSERT OVERWRITE TABLE student_seq_def SELECT * FROM student;
--檢視資料
SELECT * FROM student_seq_def;

檢視資料檔案,是一個密文的檔案.

hdfs dfs -ls /user/hive/warehouse/student_seq_def/
-rw-r--r--  /user/hive/warehouse/student_seq_def/000000_0

Sequence檔案,Gzip壓縮

--建立一個表，格式為檔案檔案：
CREATE TABLE student_seq_gzip (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS SEQUENCEFILE;
--設定壓縮型別為Gzip壓縮
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
--匯入資料：
INSERT OVERWRITE TABLE student_seq_gzip SELECT * FROM student;
--檢視資料
SELECT * FROM student_seq_gzip;

檢視資料檔案,是一個密文的檔案，無法通過gzip解壓：

hdfs dfs -ls /user/hive/warehouse/student_seq_gzip/
-rw-r--r--  /user/hive/warehouse/student_seq_gzip/000000_0

RCFILE

RCFILE,Gzip壓縮

CREATE TABLE student_rcfile_gzip (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS RCFILE;

--設定壓縮型別為Gzip壓縮
SET hive.exec.compress.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
--匯入資料：
INSERT OVERWRITE TABLE student_rcfile_gzip SELECT id,name FROM student;
--檢視資料
SELECT * FROM student_rcfile_gzip;

ORCFile

ORCFile有自己的引數設定壓縮格式，一般不使用上述Hive引數設定壓縮引數。

ORCFile,ZLIB壓縮

--建立表
CREATE TABLE student_orcfile_zlib (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS ORCFILE TBLPROPERTIES ("orc.compress"="ZLIB");

--匯入資料
INSERT OVERWRITE TABLE student_orcfile_zlib SELECT id,name FROM student;
--查詢資料
SELECT * FROM student_orcfile_zlib;

ORCFILE,Snappy壓縮

--建立表
CREATE TABLE student_orcfile_snappy2 (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS ORCFILE TBLPROPERTIES ("orc.compress"="SNAPPY");

--匯入資料
INSERT OVERWRITE TABLE student_orcfile_snappy2 SELECT id,name FROM student;
--查詢資料
SELECT * FROM student_orcfile_snappy2;

一般不使用下述方式。下述方式壓縮後，結果與上述同類型壓縮(SNAPPY)不同。具體原因待進一步研究。

--建立表
CREATE TABLE student_orcfile_snappy (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS ORCFILE;
--設定壓縮
SET hive.exec.compress.output=true;
SET mapred.compress.map.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodec;
--匯入資料
INSERT OVERWRITE TABLE student_orcfile_snappy SELECT id,name FROM student;
--查詢資料
SELECT * FROM student_orcfile_snappy;

Parquet

Parquet,Snappy壓縮

--建立表
CREATE TABLE student_parquet_snappy (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS PARQUET;
--設定壓縮
SET hive.exec.compress.output=true;
SET mapred.compress.map.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodec;
--匯入資料
INSERT OVERWRITE TABLE student_parquet_snappy SELECT id,name FROM student;
--查詢資料
SELECT * FROM student_parquet_snappy;

Avro

Avro,Snappy壓縮

--建立表
CREATE TABLE student_avro_snappy (id STRING, name STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n'
STORED AS AVRO;
--設定壓縮
SET hive.exec.compress.output=true;
SET mapred.compress.map.output=true;
SET mapred.output.compress=true;
SET mapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodec;
--匯入資料
INSERT OVERWRITE TABLE student_avro_snappy SELECT id,name FROM student;
--查詢資料
SELECT * FROM student_avro_snappy;

參考文件

Hive之——Hive支援的檔案格式與壓縮演算法(1.2.1)

概述只要是配置了正確的檔案型別和壓縮型別(比如Textfile+Gzip、SequenceFile+Snappy等)，Hive都可以按預期讀取並解析資料，提供SQL功能。SequenceFile本身的結構已經設計了內容進行壓縮。所以對於SequenceFile檔案的壓縮，並不

【Hive】11-其他檔案格式和壓縮方法

Hive的一個獨特的功能就是：Hive不會強制要求將資料轉換成特定的格式才能使用。 Hive利用Hadoop的InputFormatAPI來從不同的資料來源讀取資料，例如文字格式、sequence檔案格式，甚至使用者自定義格地。同樣地，使用OutputFormat API也可

自己動手編寫一個Linux偵錯程式系列之4 ELF檔案格式與DWARF除錯格式

目錄在上一節中，你已經聽說了DWARF除錯格式，它是程式的除錯資訊，是一種可以更好理解原始碼的方式，而不只是解析程式。今天我們將討論原始碼級除錯資訊的細節，以準備在本教程後面的部分中使用它。系列索引準備工作斷點的設定暫存器和記憶體 ELF檔案格式

Hive程式設計(十一)【其他檔案格式和壓縮方法】

11.1 確定安裝編解碼器 # hive -e "set io.compression.codecs" io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec, org.apache.ha

Hive之 hive與hadoop的聯系

ack create 交互 table ima ask str 數據信息 where Hive與Hadoop調用圖解析：

Hive之DML（資料匯入與資料匯出）操作

總結：資料的匯入 1）hdfs或者本地檔案匯入使用 load 或者建立資料庫的同時指定檔案位置 location 2）從已有hive資料庫中表匯入相應的資料使用 as

elf檔案格式與動態連結庫(非常之好)-----不可不看

} 當我們把hello.c編譯為目標檔案時，我們並沒有在原始檔中定義printf這個函式，所以彙編器也不知道printf這個函式的具體的地址，所以在目標檔案中就會留下printf這個符號。以下的工作就交給聯結器了，聯結器會找到這個函式的入口地址然後傳遞給這個檔案最終形成可執行檔案。這個過程就叫做relocat

淺談linux9：檔案歸檔與壓縮

檔案歸檔把多個檔案變成一個歸檔檔案tar c ##建立 f ##指定歸檔檔名稱 t ##顯示歸檔檔案中的內容 r ##向歸檔檔案中新增檔案 --get ##取出單個檔案 --delete ##刪除單個檔案 x ##取

如何利用winrar製作自解壓，自動執行檔案格式的壓縮包

操作提前：電腦安裝WinRAR軟體。將用來製作的資料放在資料夾內，然後用Ctrl+A全選該資料夾下的檔案。單擊滑鼠右鍵，然後選擇“新增到壓縮檔案”選項。在開啟的對話方塊“常規”選項卡中，單擊“壓縮方式”下拉框選擇合適的壓縮方式，並將壓縮選項下的“建立自解壓格式壓縮檔案”選項勾選，這時候會發現“

基於CM搭建的CDH叢集之hive元件升級過程（hive0.13.1升級到hive-1.2.1且確保納入CM管理）

1、在hive0.13.1版本下建立lib121目錄 cd /opt/cloudera/parcels/CDH/lib/hive;mkdir lib121 2、下載hive1.2.1版本,並將該版本lib下所有檔案拷貝到lib121中 3、修改/opt/cloudera/par

Linux操作-檔案打包與壓縮

概念講解在講 Linux 上的壓縮工具之前，有必要先了解一下常見常用的壓縮包檔案格式。在 Windows 上最常見的不外乎這三種 *.zip，*.rar，*.7z 字尾的壓縮檔案。而在 Linux 上面常見的格式除了以上三種外，還有 *.gz，*.xz，*.b

C#儲存excel檔案時提示檔案格式與副檔名不匹配

如果儲存生成的excel檔案提示如下錯誤，可以通過設定儲存excel格式來解決。【例】 public static string xlsFilePath = @"D:\";//excel檔案存放路徑 &nbs

大資料hive之hive連線mysql並啟動，出現SSL警告，如何解決？

文章目錄 1. 問題 2. 如何解決？ 2.1 設定useSSL=false 2.2 設定useSSL = true 1. 問題 Hive能正常執行任務，但出現“WARN: E

Centos7-檔案歸檔與壓縮

1.tar 1.1命令與引數用法：tar [引數] [壓縮檔名] [要壓縮的檔案] 使用引數時，可以不使用 - 引數： -c create，建立檔案 -x extract，提取解壓還原檔案 -v 顯示執行顯示過程 -f 指定備份檔案 -t 列出備份檔案內

數字影象處理第一次作業——JPEG格式與壓縮流程分析

歡迎閱讀此篇部落格是由曹老師數字影象處理課程佈置的第一次作業（2018年9月16日）作業內容：分析JPEG格式、原理、壓縮流程、下載實現程式碼並調通執行、計算壓縮率。此篇部落格以分析原理為主，在每個演算法之後會貼出對應的C語言程式碼。本文程式碼使用的

Hive之——Hive表操作

一、Hive基本使用——資料型別1、基本資料型別tinyint, smallint, int, bigint, boolean, float, double, string, binary, timestamp, decimal, char, varchar, date2、集

AIX 檔案打包與壓縮 tar gzip compress 的使用

今天在Aix用tar -cvf 備份，打成tar包，佔有硬碟空間過大，沒有壓縮比，嘗試使用tar -zcvf linux系統下可以用-z 命令 (z 用gzip來壓縮/解壓縮檔案，加上該選項後可以將檔案檔案進行壓縮，但還原時也一定要使用該選項進行解壓縮。 ) 生成： tar

支援檔案格式HDR, OpenEXR, 檔案格式轉換

一個在linux 下使用的強大圖形工具在 Ubuntu 上挺好使。幾個例子 1. 看當前檔案下的所有hdr檔案 pfsv *.hdr 2. 把所有HDR轉換成OpenEXR for img in *.hdr; do pfsin ${img} | pfso

linux常用命令（二）檔案打包與壓縮

今天在學linux打包、壓縮、解壓縮的一些命令，感覺蠻難記的T T，有一種明天就會忘的感覺><。但是也不耽誤我和小可愛們分享呀~先明晰一些概念~打包和壓縮的是一個意思嗎？答案是：NO! 打包是指打包是指將一大堆檔案或目錄什麼的變成一個總的檔案，壓縮呢，則是將一個大

ELF檔案格式與相關命令

一、相關概念介紹可執行檔案(executable)格式： windows平臺下是PE(protable executable) linux平臺下是ELF(executable linkable

Hive之——Hive支援的檔案格式與壓縮演算法(1.2.1)

概述

檔案格式

壓縮演算法的編解碼器

TEXTFILE

文字檔案,非壓縮

文字檔案,DEFLATE壓縮

文字檔案,Gzip壓縮

文字檔案,Bzip2壓縮

文字檔案,lzo壓縮

文字檔案,lz4壓縮

文字檔案,Snappy壓縮

SEQUENCEFILE

Sequence檔案,DEFLATE壓縮

Sequence檔案,Gzip壓縮

RCFILE

RCFILE,Gzip壓縮

ORCFile

ORCFile,ZLIB壓縮

ORCFILE,Snappy壓縮

Parquet

Parquet,Snappy壓縮

Avro

Avro,Snappy壓縮

參考文件

相關推薦