Hive分割槽表建立、分類

阿新 • • 發佈：2019-01-05

一、分割槽表建立與說明

必須在表定義時建立partition

a、單分割槽建表語句：create table day_table (id int, content string) partitioned by (dt string);單分割槽表，按天分割槽，在表結構中存在id，content，dt三列。

以dt為資料夾區分

b、雙分割槽建表語句：create table day_hour_table (id int, content string) partitioned by (dt string, hour string);雙分割槽表，按天和小時分割槽，在表結構中新增加了dt和hour兩列。

先以dt為資料夾，再以hour子資料夾區分

新增分割槽表語法（表已建立，在此基礎上新增分割槽）：ALTER TABLE table_name ADD
partition_spec [ LOCATION 'location1' ]
partition_spec [ LOCATION 'location2' ] ...

ALTER TABLE day_table ADD
PARTITION (dt='2008-08-08', hour='08')
location '/path/pv1.txt'

刪除分割槽語法：ALTER TABLE table_name DROP
partition_spec, partition_spec,...

使用者可以用 ALTER TABLE DROP PARTITION 來刪除分割槽。分割槽的元資料和資料將被一併刪除。例：

ALTER TABLE day_hour_table DROP PARTITION (dt='2008-08-08', hour='09');

資料載入進分割槽表中語法：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

例：

LOAD DATA INPATH '/user/pv.txt' INTO TABLE day_hour_table PARTITION(dt='2008-08- 08', hour='08'); LOAD DATA local INPATH '/user/hua/*' INTO TABLE day_hour partition(dt='2010-07- 07');當資料被載入至表中時，不會對資料進行任何轉換。Load操作只是將資料複製至Hive表對應的位置。資料載入時在表下自動建立一個目錄

基於分割槽的查詢的語句：SELECT day_table.* FROM day_table WHERE day_table.dt>= '2008-08-08';

檢視分割槽語句：

hive> show partitions day_hour_table; OK dt=2008-08-08/hour=08 dt=2008-08-08/hour=09 dt=2008-08-09/hour=09

二、靜態與動態分割槽表

partition是hive提供的一種機制：使用者通過指定一個或多個partition key，決定資料存放方式，進而優化資料的查詢
一個表可以指定多個partition key，每個partition在hive中以資料夾的形式存在。

1、靜態分割槽（static partition）：
編輯檔案：/home/work/data/test3.txt; /home/work/data/test4.txt;
$ cat /home/work/data/test3.txt
1,zxm
2,ljz
3,cds
4,mac
5,android
6,symbian
7,wp

$ cat /home/work/data/test4.txt
8,zxm
9,ljz
10,cds
11,mac
12,android
13,symbian
14,wp

建表：
hive> create table student_tmp(id INT, name STRING)
> partitioned by(academy STRING, class STRING)
      > row format delimited fields terminated by ',';
OK
Time taken: 6.505 seconds
id，name是真實列，partition列academy和class是偽列

load資料：(此處直接load資料進partition，在hive 0.6之前的版本，必須先建立好partition，資料才能匯入)
hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp partition(academy='computer', class='034');
Copying data from file:/home/work/data/test3.txt
Copying file: file:/home/work/data/test3.txt
Loading data to table default.student_tmp partition (academy=computer, class=034)
OK
Time taken: 0.898 seconds
hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp partition(academy='physics', class='034');
Copying data from file:/home/work/data/test3.txt
Copying file: file:/home/work/data/test3.txt
Loading data to table default.student_tmp partition (academy=physics, class=034)
OK
Time taken: 0.256 seconds

檢視hive檔案結構：
$ hadoop fs -ls  /user/hive/warehouse/student_tmp/
Found 2 items
drwxr-xr-x   - work supergroup          0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer
drwxr-xr-x   - work supergroup          0 2012-07-30 19:00 /user/hive/warehouse/student_tmp/academy=physics
$ hadoop fs -ls /user/hive/warehouse/student_tmp/academy=computer
Found 1 items
drwxr-xr-x   - work supergroup          0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer/class=034

查詢資料：
hive> select * from student_tmp where academy='physics';
OK
1       zxm     physics 034
2       ljz     physics 034
3       cds     physics 034
4       mac     physics 034
5       android physics 034
6       symbian physics 034
7       wp      physics 034
Time taken: 0.139 seconds

以上是static partition的示例，static partition即由使用者指定資料所在的partition，在load資料時，指定partition(academy='computer', class='034');
static partition常適用於使用處理時間作為partition key的例子。
但是，我們也常常會遇到需要向分割槽表中插入大量資料，並且插入前不清楚資料歸宿的partition，此時，我們需要dynamic partition。
使用動態分割槽需要設定hive.exec.dynamic.partition引數值為true。
可以設定部分列為dynamic partition列，例如：partition(academy='computer', class);
也可以設定所有列為dynamic partition列，例如partition(academy, class);
設定所有列為dynamic partition列時，需要設定hive.exec.dynamic.partition.mode=nonstrict
需要注意的是，主分割槽為dynamic partition列，而副分割槽為static partition列是不允許的，例如partition(academy, class=‘034’);是不允許的
2、動態分割槽（dynamic partition）：
建表
hive> create table student(id INT, name STRING)
    > partitioned by(academy STRING, class STRING)
    > row format delimited fields terminated by ',';
OK
Time taken: 0.393 seconds

設定引數
hive> set hive.exec.dynamic.partition.mode=nonstrict;
hive> set hive.exec.dynamic.partition=true;

匯入資料：
hive> insert overwrite table student partition(academy, class)
    > select id,name,academy,class from student_tmp
    > where class='034';
Total MapReduce jobs = 2
.........
OK
Time taken: 29.616 seconds

查詢資料：

hive> select * from student where academy='physics';
OK
1       zxm     physics 034
2       ljz     physics 034
3       cds     physics 034
4       mac     physics 034
5       android physics 034
6       symbian physics 034
7       wp      physics 034
Time taken: 0.165 seconds

檢視檔案：
$ hadoop fs -ls /user/hive/warehouse/student/
Found 2 items
drwxr-xr-x   - work supergroup          0 2012-07-30 19:22 /user/hive/warehouse/student/academy=computer
drwxr-xr-x   - work supergroup          0 2012-07-30 19:22 /user/hive/warehouse/student/academy=physics

3、總結：
hive partition是通過將資料拆分成不同的partition放入不同的檔案，從而減少查詢操作時資料處理規模的手段。
例如，Hive Select查詢中，如果沒有建partition，則會掃描整個表內容，這樣計算量巨大。如果我們在相應維度做了partition，則處理資料規模可能會大大減少。
|
4、附partition相關引數：
hive.exec.dynamic.partition（預設false）：設定為true允許使用dynamic partition
hive.exec.dynamic.partition.mode（預設strick）：設定dynamic partition模式（nostrict允許所有partition列都為dynamic partition，strict不允許）
hive.exec.max.dynamic.partitions.pernode （預設100）：每一個mapreduce job允許建立的分割槽的最大數量，如果超過了這個數量就會報錯
hive.exec.max.dynamic.partitions （預設1000）：一個dml語句允許建立的所有分割槽的最大數量
hive.exec.max.created.files （預設100000）：所有的mapreduce job允許建立的檔案的最大數量

Hive分割槽表建立、分類

一、分割槽表建立與說明

二、靜態與動態分割槽表

Hive分割槽表建立、分類

ORACLE分割槽表梳理系列（一）- 分割槽表概述、分類、使用方法及注意事項

Hive內部表、外部表、分割槽表以及外部分割槽表建立以及匯入資料例項講解

大資料（二十）：hive分割槽表、修改表語句與資料的匯入匯出

hive分割槽表的建立+外部表

hive外部表建立分割槽,並根據分割槽進行查詢

hive 分割槽表、桶表和外部表

oracle 11g 分割槽表建立（自動按年分割槽）

Hive 分割槽表初始化歷史分割槽操作

Hive -分割槽表

Hive面試題:Hive分割槽表和分桶表的區別

HIVE --- 分割槽表

oracle資料庫表空間，使用者許可權，分割槽表建立基礎知識（一

HIVE 分割槽表分桶表

每日一題——有向網的鄰接矩陣、鄰接表、逆鄰接表建立、列印及深度、廣度遍歷

spark streaming 接收kafka資料寫入Hive分割槽表

如何每日增量載入資料到Hive分割槽表

HIVE分割槽表新增欄位後新增欄位值為空,需要帶分割槽加欄位

hive分割槽表幾大注意事項

【Hive】Hive分割槽表詳解

Hive分割槽表建立、分類

一、分割槽表建立與說明

二、靜態與動態分割槽表

相關推薦