Hive分桶表的建立和相關操作

阿新 • • 發佈：2021-06-30

1. 建立分桶分割槽表

set hive.enforce.bucketing=true; --設定自動分桶引數
CREATE Table `tmp_wfbwall_log_url`
(
  `log_time` string, 
  `log_key` string, 
  `url_detail` string, 
  `url_briefly` string, 
  `url_action` string, 
  `time_situation` string
)
partitioned by(dt STRING)
clustered by (log_key)  sorted by (log_time) 
INTO  
5 buckets                            --分5個通
row format delimited fields terminated by ','
lines terminated by '\n';

2. 往分割槽分桶後的表裡插入資料

insert into `tmp_wfbwall_log_url` partition (dt='20210630')
select   
 `log_time`
,log_key
,url_detail
,url_briefly
 ,url_action
,time_situation
from wfbmal.wfbwall_log_url

3. 檢視分桶表的存放位置，

4. 檢查分桶檔案資訊，已經被分成了5個桶

分桶抽樣查詢

對於非常大的資料集，有時使用者需要使用的是一個具有代表性的查詢結果而不是全部結果。Hive可以通過對錶進行抽樣來滿足這個需求。

select * from tmp_wfbwall_log_url tablesample(bucket 1 out of 2 on log_key);

注：tablesample是抽樣語句，語法：TABLESAMPLE(BUCKET x OUT OF y) 。

y必須是table總bucket數的倍數或者因子。hive根據y的大小，決定抽樣的比例。例如，table總共分了4份，當y=2時，抽取(4/2=)2個bucket的資料，當y=8時，抽取(4/8=)1/2個bucket的資料。

x表示從哪個bucket開始抽取，如果需要取多個分割槽，以後的分割槽號為當前分割槽號加上y。例如，table總bucket數為4，tablesample(bucket 1 out of 2)，表示總共抽取（4/2=）2個bucket的資料，抽取第1(x)個和第3(x+y)個bucket的資料。

注意：x的值必須小於等於y的值，否則

FAILED: SemanticException [Error 10061]: Numerator should not be bigger than denominator in sample clause for table stu_buck

Hive分桶表的建立和相關操作

分桶抽樣查詢

Hive分桶表的建立和相關操作

hive分桶表的學習

Hive 系列（五）—— Hive 分割槽表和分桶表

Hive基礎（十三）：分割槽表和分桶表

我與Hive的不解之謎系列（三）：Hive的分割槽表和分桶表及SQL知識

分割槽表和分桶表

Hive分割槽表分桶表的認識與區別

Hive 分桶

WebAPI的屬性和相關操作 FormBody和 FormUri等

spring全家桶學習-spring-jdbc 相關操作

QT自學記錄（1）——QT程式建立和基本操作

順序表建立和就地逆置

關於hive 分桶重排序的一個栗子

2.PHP資料型別和相關操作

【資料結構】雙鏈表和迴圈連結串列的相關操作--建立-插入-刪除-查詢

mysql8學習筆記③資料庫和表的建立等常用操作

表單和表格的相關屬性及操作

Hive 分割槽和分桶

資料結構2-順序表的建立、刪除、遍歷和插入操作

Hive排序、分割槽和分桶

Hive分桶表的建立和相關操作

分桶抽樣查詢

相關推薦