Hive分桶

阿新 • • 發佈：2019-04-18

rri clu pan map limited table clust 同文件 mapred

1.簡介

　　分桶表是對列值取哈希值的方式將不同數據放到不同文件中進行存儲。對於hive中每一個表，分區都可以進一步進行分桶。由列的哈希值除以桶的個數來決定數據劃分到哪個桶裏。

2.適用場景

　　1.數據抽樣【sampling】

　　2.map-join

3.開啟支持分桶

　　配置;set hive.enforce.bucketing=true;

　　默認值：false

　　設置為true後，mapreduce運行時會根據bucket的個數自動分配reduce task個數

　　註意：首次作業產生的桶【文件個數】和reduce task個數一致。

4.加載數據　　

　　執行：

　　　　insert into table bucket_table select columnd from tbl;

　　　　insert override table bucket_table select columns from tbl;

5.抽樣

　　執行：

　　　　select * from bucket_table tablesample(bucket 1 out of 4 on columns);

　　語法：TABLESAMPLE(BUCKET x OUT OF y)

　　備註：y必須是table總bucket數的倍數或者因子。hive根據y的大小，決定抽樣的比例。例如，table總共分了64份，當y=32時，抽取【64/32】2個bucket的數據，當y=128時，抽取【64/128】1/2個bucket的數據。x表示從哪個bucket開始抽取。例如，table總bucket數為32，tablesample(bucket 3 out of 16)，表示總共抽取【32/16】2個bucket的數據，分別為第3個bucket和第【3+16】19個bucket的數據。

6.創建分桶表

　　執行：
　　　　create table psnbucket(id INT,name STRING,age INT) clustered by (age) into 4 buckets row format delimited fields terminated by ‘,‘;

Hive分桶

Hive分桶

1.簡介

2.適用場景

3.開啟支持分桶

4.加載數據

5.抽樣

6.創建分桶表

大資料（二十二）：hive分桶及抽樣查詢、自定義函式、壓縮與儲存

hive分桶，排序，連線

hive分桶管理

Hive 分桶表

Hive分桶(bucket)

Hive分桶和抽樣查詢

Hive分桶

HIVE—索引、分區和分桶的區別

Hive的分桶

Hive常用函式和分桶表

能說一下你們專案中hive的庫表設計嗎---庫表設計三板斧---內外部表|分割槽和分桶|序列化和反序列化

Hive的分桶管理和分割槽

hive的三板斧：內部表和外部表、分割槽和分桶以及序列化/反序列化(SerDe)

Hive面試題:Hive分割槽表和分桶表的區別

Hive的排序以及分桶抽樣查詢

Hive的分桶表和抽樣查詢（附帶案例，分桶和分表的區別）

hive的分割槽和分桶

Hive中的分桶概念的學習以及示例分析學習

一起學Hive——建立內部表、外部表、分割槽表和分桶表及匯入資料

HIVE分割槽以及分桶的簡單概念

Hive分桶

1.簡介

2.適用場景

3.開啟支持分桶

4.加載數據

5.抽樣

6.創建分桶表

相關推薦

4.加載數據