大資料之Hive：壓縮和儲存

阿新 • • 發佈：2021-01-26

Hadoop壓縮配置
1 MR支援的壓縮編碼
在這裡插入圖片描述
2 壓縮效能的比較

3 檔案儲存格式
Hive支援的儲存資料的格式主要有：TEXTFILE 、SEQUENCEFILE、ORC、PARQUET
TEXTFILE和SEQUENCEFILE的儲存格式都是基於行儲存的；
ORC和PARQUET是基於列式儲存的。
主流檔案儲存格式對比實驗
從儲存檔案的壓縮比和查詢速度兩個角度對比。
4 儲存檔案的壓縮比測試：
1．TextFile
（1）建立表，儲存資料格式為TEXTFILE

create table log_text (
track_time string,
url string, 

session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as textfile ;

（2）向表中載入資料

hive (default)> load data local inpath '/opt/module/datas/log.data' into table log_text ;

（3）查看錶中資料大小

hive (default)>dfs -du -h /user/hive/ 
warehouse/test2.db/log_text/log.data;
18.1 M  /user/hive/warehouse/log_text/log.data

3．ORC
（1）建立表，儲存資料格式為ORC

create table log_orc(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as orc ;

（2）向表中載入資料

hive (default)> insert into table log_orc select * from log_text ;

（3）查看錶中資料大小

hive (default)> dfs -du -h /user/hive/warehouse/log_orc/ ;
2.8 M  /user/hive/warehouse/log_orc/000000_0

4．Parquet
（1）建立表，儲存資料格式為parquet

create table log_parquet(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as parquet ;

（2）向表中載入資料

hive (default)> insert into table log_parquet select * from log_text ;

（3）查看錶中資料大小

hive (default)> dfs -du -h /user/hive/warehouse/log_parquet/ ;
13.1 M  /user/hive/warehouse/log_parquet/000000_0

儲存檔案的壓縮比總結：

ORC >  Parquet >  textFile

儲存檔案的查詢速度測試：
儲存檔案的查詢速度總結：查詢速度相近。

大資料之Hive：壓縮和儲存

大資料之Hive：壓縮和儲存

Hadoop基礎（四十九）：壓縮和儲存（一）

Hadoop基礎（五十）：壓縮和儲存（二）

hive能替代oracle_走近大資料之Hive入門（六、Hive的資料模型）

大資料之Hive:其他常用查詢函式之行轉列

大資料之Hive:其他常用查詢函式之列轉行

大資料之Hive:其他常用查詢函式之視窗函式

大資料之Hive:DML資料操作(四)

大資料之Hive安裝配置

大資料概念解析：分散式儲存與資料庫

大資料之旅——CentOS安裝JDK（壓縮檔案版本）

Python工程師的大資料之路（七a）Hadoop,ZooKeeper,HIVE,Spark叢集部署

大資料開發Hive中 ORC 儲存格式分析

從0開始學習大資料之java spark程式設計入門與專案實踐

Python大資料之使用lxml庫解析html網頁檔案示例

Python大資料之從網頁上爬取資料的方法詳解

Python大資料之網路爬蟲的post請求、get請求區別例項分析

大資料 java hive udf函式的示例程式碼（手機號碼脫敏）

入門大資料---Scala隱式轉換和隱式引數

java演算法篇之二：棧和佇列

大資料之Hive：壓縮和儲存

相關推薦