Hive分割槽和分桶

阿新 • • 發佈：2019-01-17

Hive把表組織成分割槽（partition）。這是一種根據分割槽列（partition column，如日期）的值對錶進行粗略的劃分機制。使用分割槽可以加快資料分片（slice）的查詢速度。

表或分割槽可以進一步劃分為桶（bucket）。它會為資料提供額外的結構以獲取更高效的查詢處理。例如，通過根據使用者ID來劃分桶，我們可以在所有使用者集合的隨機樣本上快速計算基於使用者的查詢。

分桶適用場景：

資料抽樣（ sampling ）、map-join

建立分割槽表

hive> CREATE TABLE pt1(id INT,name STRING,hobby ARRAY<STRING>,address MAP<STRING,STRING>)

> PARTITIONED BY(dt STRING,country STRING)

> ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

> COLLECTION ITEMS TERMINATED BY '-'

> MAP KEYS TERMINATED BY ':';

Time taken: 0.196 seconds

hive> show tables;

pt1

Time taken: 0.063 seconds, Fetched: 1 row(s)

說明：我們可以看到建立分割槽表和之前建立表的唯一區別就是多了Partitioned By，如果要建立一個分割槽那麼裡面就寫一個欄位、我們這裡演示的是建立多個（兩個）分割槽。

在WEB UI中檢視

檢視一下表格式：

hive> desc formatted pt1;

# col_name data_type comment

id int

name string

hobby array<string>

address map<string,string>

# Partition Information

# col_name data_type comment

dt string

country string

# Detailed Table Information

Database: htest

Owner: root

CreateTime: Sat Aug 04 15:16:34 CST 2018

LastAccessTime: UNKNOWN

Protect Mode: None

Retention: 0

Location: hdfs://mycluster/user/hive/warehouse/htest.db/pt1

Table Type: MANAGED_TABLE

Table Parameters:

transient_lastDdlTime 1533366994

# Storage Information

SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

InputFormat: org.apache.hadoop.mapred.TextInputFormat

OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

Compressed: No

Num Buckets: -1

Bucket Columns: []

Sort Columns: []

Storage Desc Params:

colelction.delim -

field.delim ,

mapkey.delim :

serialization.format ,

Time taken: 0.178 seconds, Fetched: 38 row(s)

可以看到分割槽資訊中多了兩個分割槽欄位

載入資料：

準備資料

id,name,hobby,address

1,張三,籃球-足球-音樂,北京:上海

2,李四,看書-旅遊-爬山,西安:成都

3,王五,鋼琴-小提琴-古箏,重慶:杭州

4,趙六,抽菸-喝酒-燙頭髮,哈爾濱:瀋陽

2.載入資料

hive> LOAD DATA LOCAL INPATH '/root/data/hdata1' into table pt1;

FAILED: SemanticException [Error 10062]: Need to specify partition columns because the destination table is partitioned

如果還和之前一樣載入資料，顯然直接報錯，根據錯誤日誌很明顯看出，給分割槽表載入資料必須要指定分割槽列。

hive> LOAD DATA LOCAL INPATH '/root/data/hdata1' into table pt1

PARTITION(dt='2018-08-04',country='CHINA');

Loading data to table htest.pt1 partition (dt=2018-08-04, country=CHINA)

Partition htest.pt1{dt=2018-08-04, country=CHINA} stats: [numFiles=1, numRows=0, totalSize=207, rawDataSize=0]

Time taken: 1.091 seconds

說明：我這次載入資料的時候把分割槽的日期欄位定義為dt='2018-08-04'，國家欄位定義為country=’CHINA’，那麼這一批資料都屬於這個兩個分割槽；如果明天我要載入第二批資料的時候，那麼就把日期欄位和國家欄位進行相應的修改，這樣就可以很完美的把資料進行分割槽了。

檢視一下表中是資料：

hive> select * from pt1;

NULL name ["hobby"] {"address":null} 2018-08-04 CHINA

1 張三 ["籃球","足球","音樂"] {"北京":"上海"} 2018-08-04 CHINA

2 李四 ["看書","旅遊","爬山"] {"西安":"成都"} 2018-08-04 CHINA

3 王五 ["鋼琴","小提琴","古箏"] {"重慶":"杭州"} 2018-08-04 CHINA

4 趙六 ["抽菸","喝酒","燙頭髮"] {"哈爾濱":"瀋陽"} 2018-08-04 CHINA

Time taken: 0.157 seconds, Fetched: 5 row(s)

在WEB UI中檢視，也能看到資料存在兩個分割槽列目錄中：

建立分桶表

hive> CREATE TABLE bt1(id INT,name STRING,hobby ARRAY<STRING>,address MAP<STRING,STRING>)

> CLUSTERED BY(id) INTO 4 BUCKETS

> ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

> COLLECTION ITEMS TERMINATED BY '-'

> MAP KEYS TERMINATED BY ':';

Time taken: 0.161 seconds

說明：分桶表是對列值取雜湊值的方式，將不同資料放到不同檔案中儲存。

對於hive中每一個表、分割槽都可以進一步進行分桶。

由列的雜湊值除以桶的個數來決定每條資料劃分在哪個桶中。

2.載入資料

（1）前提：

開啟支援分桶

set hive.enforce.bucketing=true;

預設：false；設定為true之後，mr執行時會根據bucket的個數自動分配reduce task個數。（使用者也可以通過mapred.reduce.tasks自己設定reduce任務個數，但分桶時不推薦使用）

注意：一次作業產生的桶（檔案數量）和reduce task個數一致。

（2）分桶載入資料和分割槽以及表的方式不一樣，不能使用LOAD，載入資料的方式有兩種：

insert into table bt1 select columns from pt1;

insert overwrite table bt1 select columns from pt1;

這裡我使用第二種：（把上面建立的分割槽表的資料匯入這個分通表）

INSERT OVERWRITE TABLE bt1 SELECT id,name,hobby,address from pt1;

匯入資料後檢視WEB UI:

可以看到的確分了四個桶，每個桶對應一個檔案

檢視這四個檔案：

[[email protected] ~]# hadoop fs -cat /user/hive/warehouse/htest.db/bt1/000000_1000

4,趙六,抽菸-喝酒-燙頭髮,哈爾濱:瀋陽

[[email protected] ~]# hadoop fs -cat /user/hive/warehouse/htest.db/bt1/000001_1001

1,張三,籃球-足球-音樂,北京:上海

[[email protected] ~]# hadoop fs -cat /user/hive/warehouse/htest.db/bt1/000002_1000

2,李四,看書-旅遊-爬山,西安:成都

[[email protected] ~]# hadoop fs -cat /user/hive/warehouse/htest.db/bt1/000003_1000

3,王五,鋼琴-小提琴-古箏,重慶:杭州

[[email protected] ~]#

Hive分割槽和分桶

Hive分割槽和分桶

能說一下你們專案中hive的庫表設計嗎---庫表設計三板斧---內外部表|分割槽和分桶|序列化和反序列化

hive的三板斧：內部表和外部表、分割槽和分桶以及序列化/反序列化(SerDe)

hive的分割槽和分桶

HIVE—索引、分割槽和分桶的區別

Hive SQL(分割槽和分桶)

HIVE分割槽以及分桶的簡單概念

HIVE 分割槽表分桶表

第二十一天 -- hive補充 -- hive分割槽、分桶 -- hive資料匯入匯出

Hive面試題:Hive分割槽表和分桶表的區別

一起學Hive——建立內部表、外部表、分割槽表和分桶表及匯入資料

資料倉庫和hive語句中的分割槽表和分桶表

Hive 系列（五）—— Hive 分割槽表和分桶表

HIVE—索引、分區和分桶的區別

Hive常用函式和分桶表

Hive表的分割槽與分桶

hive 分割槽表、桶表和外部表

Hive中索引，分割槽，分桶的對比

大資料Hive的案例、引數、動態分割槽、分桶、檢視、索引、執行方式、許可權管理、Hive的優化_03_03

Hive中的分桶概念的學習以及示例分析學習

Hive分割槽和分桶

相關推薦