1. 程式人生 > >Hive之壓縮儲存

Hive之壓縮儲存

壓縮儲存有時候可以獲得更好的效能。

使用TextFile儲存時,可以使用GZIP或者BZIP2進行壓縮。操作如下

CREATE TABLE raw (line STRING) ROW FORMAT DELIMITED FIELDSTERMINATED BY '\t' LINES TERMINATED BY '\n';

LOAD DATA LOCAL INPATH '/tmp/weblogs/20090603-access.log.gz' INTOTABLE raw;

以上操作的缺點是hive在查詢時不能分隔壓縮檔案,不能並行執行map,只能執行一個map。

更好的方式是如下操作:

CREATE TABLE raw (line STRING) ROW FORMAT DELIMITED FIELDSTERMINATED BY '\t' LINES TERMINATED BY '\n';

CREATE TABLE raw_sequence (line STRING) STORED AS SEQUENCEFILE;

LOAD DATA LOCAL INPATH '/tmp/weblogs/20090603-access.log.gz' INTOTABLE raw;

SET hive.exec.compress.output=true;

SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (seebelow)

INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;

把資料插入到另一張表。另一種表使用SequenceFile儲存。

相關推薦

Hive壓縮儲存

壓縮儲存有時候可以獲得更好的效能。 使用TextFile儲存時,可以使用GZIP或者BZIP2進行壓縮。操作如下 CREATE TABLE raw (line STRING) ROW FORMAT DELIMITED FIELDSTERMINATED BY '\t' LI

HIVE 壓縮格式

中間壓縮就是處理作業map任務和reduce任務之間的資料,對於中間壓縮,最好選擇一個節省CPU耗時的壓縮方式 <property>          <name>hive.exec.compress.intermediate</name>          <

遇見hive記憶篇--運用sqoop對資料的同步的常見錯誤,及hive儲存格式分析(壓縮格式)

前面所記載的差不多都涵蓋到了,但是總是覺得有很多知識點沒有記到,在這裡梳理一遍1、sqoop的匯入,這次測試完全分散式對sqoop的快速匯入的測試嘗試了cdh分散式下的hive的配置,及sqoop的配置,才發現和偽分散式的單節點的部署一模一樣,並沒有其他要注意的東西,就那個,

Hive儲存格式

常用的儲存格式 1.textfile Hive資料表的預設格式,資料不做壓縮,磁碟開銷大,資料解析開銷大。儲存方式:行儲存。 可以使用Gzip壓縮演算法,但壓縮後的檔案不支援split。 在反序列化過程中,必須逐個字元判斷是不是分隔符和行結束符,因此反序列化開銷會比SequenceFile高几十倍。

Hive壓縮儲存

資料壓縮 開啟Map輸出階段壓縮 開啟map輸出階段壓縮可以減少job中map和Reduce task間資料傳輸量。 在hive中執行: 1)開啟hive中間傳輸資料壓縮功能 hive (default)>set hive.exec.compress.

Hive壓縮和檔案儲存格式

1、壓縮 hive主要包括如下幾種壓縮:Snappy、LZ4/LZO、Gzip和Bzip2。 壓縮格式 壓縮比 檔案格式 檔案是否支援分割 Snappy 50% .

Hive——整合MySQL儲存元資料資訊及基本操作示例

一、概述 Hive在實際工作過程中,需要一個統一的儲存媒介來儲存元資料資訊,這個儲存媒介通常可以是MySQL資料,那麼如何將Hive的元資料資訊儲存到MySQL中呢,今天,就帶著大家一起學習大資料入門系列的Hive篇——整合MySQL儲存元資料資訊。 二、環境整合 1、安

Hive——Hive支援的檔案格式與壓縮演算法(1.2.1)

概述只要是配置了正確的檔案型別和壓縮型別(比如Textfile+Gzip、SequenceFile+Snappy等),Hive都可以按預期讀取並解析資料,提供SQL功能。SequenceFile本身的結構已經設計了內容進行壓縮。所以對於SequenceFile檔案的壓縮,並不

【Redis源代碼剖析】 - Redis內置數據結構壓縮字典zipmap

ordering struct 包裝 字符串長度 哈希 append 解決 註意 指針 原創作品,轉載請標明:http://blog.csdn.net/Xiejingfa/article/details/51111230 今天為大家帶來Redis中zi

Hive hive與hadoop的聯系

ack create 交互 table ima ask str 數據信息 where Hive與Hadoop調用圖 解析:

Hive 數據存儲

加載過程 包含 creat 是否 數據存儲 同時 nal hash 語句 首先,Hive 沒有專門的數據存儲格式,也沒有為數據建立索引,用戶可以非常自由的組織 Hive 中的表,只需要在創建表的時候告訴 Hive 數據中的列分隔符和行分隔符,Hive 就可以解析數據。

Linux命令壓縮

linux gzip bzip2 壓縮1.壓縮的概念1)壓縮的目的在網絡傳遞文件時,可以先將文件壓縮,然後傳遞壓縮後的文件,從而減少網絡帶寬接收者接受文件後,解壓即可2)壓縮的類型有損壓縮和無損壓縮a)有損壓縮如MP4視頻文件,即使壓縮過程中減少了很多幀數據,對觀看者而言也沒有影響。當然MP

gulp教程壓縮合並css,js

配置 分享 ava png 命令行 end 文件名 所有 gulp package.json如果你熟悉 npm 則可以利用 package.json 保存所有 npm install --save-dev gulp-xxx 模塊依賴和模塊版本。在命令行輸入 npm ini

(十三)Centos壓縮和解壓縮

tar.bz2 lsd 文件 例如 src zip2 anaconda 我們 system 一、常用壓縮格式 常用壓縮格式:.zip .gz .bz2 常用壓縮格式:.tar.gz .tar.bz2 二、zip格式壓縮 壓縮文件:zip壓縮文件名 源文件 壓縮目錄:

L-1-17 Linux命令壓縮與歸檔命令

/tmp command filename 刪除 文件的 sca img 之前 zip [bzip2]bzip2 <file>將文件壓縮成bz2格式,並刪除原文件。//適合大文件壓縮 -d <*.bz2> 解壓 -<num> 指定

Hadoop IO操作壓縮

div set 文件解壓 ati -s 一個 原生 compress 算法 減少儲存文件所需空間,還可以降低其在網絡上傳輸的時間。壓縮算法對比 算法 原始文件大小 壓縮後文件大小 壓縮速度 解壓縮速度Gzip 8.3G

linux壓縮壓縮命令介紹

linux基礎知識.zip是linux和windows通用的壓縮文件類型語法:zip [選項] [壓縮文件][源文件]實例:[root@www yang]# zip install.log.zip install.logadding: install.log (deflated 9%)unzip解壓縮.zip

HiveGROUP BY詳解

pre 單元格 設置 有一個 sql語句 ima style class 性能 一,GROUP BY 執行理解 先來看下表1,表名為test: 表1   執行如下SQL語句: SELECT name from test GROUP BY name ; 你應該很容易知

HIVE正則化詳解

div case details class null false TP CA hive 有大神寫的很好了,我借花獻佛,有興趣,看鏈接,在此不再贅述。想要學習Hive正則表達式重點應該是正則表達式的表示方式,只有正則表達式使用溜了,hive正則那就是小case. 附參考博文

Redis數據結構壓縮列表

哈希 組成 數據 rev nts 以及 復雜 技術 con   壓縮列表是Redis為了節約內存而開發的,由一系列特殊編碼的連續內存塊組成的順序型數據結構。一個壓縮列表可以包含任意多個節點,每個節點可以保存一個字節數組或者一個整數值。 一、壓縮列表結構1. 壓縮列表結構