如何使用Data Lake Analytics建立分割槽表
前言
Data Lake Analytics (後文簡稱DLA)提供了無服務化的大資料分析服務,幫助使用者通過標準的SQL語句直接對儲存在OSS、TableStore上的資料進行查詢分析。
在關係型資料庫中,使用者可以對大資料量的表進行分割槽,提高查詢的效能。同樣在DLA中,使用者可以使用分割槽表將資料進行細化,達到縮短查詢響應時間的目的。
本文將以OSS資料來源為例,詳細介紹如何在DLA中建立和使用分割槽表。
建立分割槽表
在DLA中,建立一張分割槽表需要在建表語句中指定 PARTITIONED BY, 例如
建立一張名為tbl3_part的分割槽表,該表有兩個分割槽列,分別為p和q。
CREATE EXTERNAL TABLE tbl3_part (foo int, bar string) PARTITIONED BY (p string, q string) STORED AS TEXTFILE LOCATION 'oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/';
分割槽表在OSS上的目錄結構
DLA可以將儲存在OSS上的目錄或檔案對映成一張表。表中的資料就是OSS中的檔案內容。
對於分割槽表來說,分割槽列對應OSS上的目錄,而且是有特殊命名規則的目錄:
- 分割槽列對應表的LOCATION下的一個子目錄,目錄的命名規則為 分割槽列名=分割槽值
- 如果有多個分割槽列,則需要按照建表語句中指定的分割槽列的順序依次巢狀
對於上面例子中的建表語句,OSS上的目錄結構為:
$osscmd ls oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3 prefix list is: object list is: 2018-08-08 14:23:17 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/p=3/q=3/kv1.txt 2018-08-08 18:01:08 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/p=30/q=30/kv1.txt
使用MSCK命令更新分割槽資訊
建表成功後,需要執行 MSCK REPAIR TABLE 命令,將分割槽資訊同步到DLA中。
MSCK REPAIR TABLE tbl3_part;
執行MSCK成功後,通過 SHOW PARTITIONS 語句可以看到表中所有的分割槽資訊。
mysql> show partitions tbl3_part;
+-----------+
| Result |
+-----------+
| p=3/q=3 |
| p=30/q=30 |
+-----------+
MSCK只能識別符合DLA分割槽列命名規則的目錄,即分割槽列的目錄名為 分割槽列名=分割槽列值。
因此,當OSS上的分割槽目錄發上變化時,執行MSCK命令,DLA可以根據OSS中當前分割槽值資訊自動同步。
使用ALTER命令新增/刪除分割槽
對於已經存在的但是不滿足DLA分割槽列命名規則的目錄,使用者可以通過 ALTER命令更新表的分割槽資訊。
新增分割槽
語法:
ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location'][, PARTITION partition_spec [LOCATION 'location'], ...];
partition_spec:
: (partition_column = partition_col_value, partition_column = partition_col_value, ...)
可以一次指定新增多個分割槽,分割槽之間用逗號分隔。
示例,
ALTER TABLE order_part ADD
PARTITION (dt='2008-08-08', status='ready') location '/path/to/ready/part080808',
PARTITION (dt='2008-08-09', status='new') location '/path/to/new/part080809';
對於上面的語句,
- 如果新增的分割槽已經存在,則執行失敗,報錯 "Partition already exists";
- 如果使用了 [IF NOT EXISTS], 當新增分割槽已存在時,執行不會報錯,新的LOCATION會覆蓋掉原有分割槽所指向的目錄;
刪除分割槽
語法:
ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec[, PARTITION partition_spec, ...];
可以一次指定刪除多個分割槽,分割槽之間用逗號分隔。
示例,
ALTER TABLE order_part DROP
PARTITION (dt='2008-08-08', status='ready');
對於上面的語句,
- 如果刪除的分割槽不存在,執行不會報錯;
- 如果使用了 [IF EXISTS], 當刪除分割槽不存在時,執行不會報錯;
- DROP 分割槽目前只支援 "分割槽列=分割槽值" 的指定方式。不支援分割槽值是一個表示式,比如 partitionCol > 100;
- 如果刪除的分割槽目錄名符合 分割槽列名=分割槽列值 的命名規則,執行MSCK命令仍會將已經刪除的分割槽自動新增。
分割槽表查詢
全表查詢時,得到的是所有分割槽下的資料。
mysql> select count(*) from tbl3_part;
+-------+
| _col0 |
+-------+
| 1000 |
+-------+
當執行 SELECT * 時,可以發現分割槽列將以列的形式出現在表中定義的資料列的後面。
mysql> select * from tbl3_part limit 3;
+------+---------+------+------+
| foo | bar | p | q |
+------+---------+------+------+
| 238 | val_238 | 3 | 3 |
| 86 | val_86 | 3 | 3 |
| 311 | val_311 | 3 | 3 |
+------+---------+------+------+
查詢時可以使用分割槽列做filter
mysql> select count(*) from tbl3_part where p='3';
+-------+
| _col0 |
+-------+
| 500 |
+-------+
注意事項
- OSS上分割槽列的目錄結構的巢狀順序需要與表中定義的順序一致
比如 對於本文例子中的目錄結構,下面的建表語句是錯誤的。
CREATE EXTERNAL TABLE tbl3_part
(col1 int, col2 string)
PARTITIONED BY (q string, p string)
STORED AS TEXTFILE
LOCATION 'oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table3/';
- 分割槽表只會掃描分割槽列所在目錄下的資料.
對於下面的目錄結構
$osscmd ls oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/
prefix list is:
object list is:
2018-08-08 14:23:56 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/kv1.txt
2018-08-08 14:23:48 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/p=4/kv2.txt
2018-08-08 14:23:40 5.68KB Standard oss://oss-jinluo-openanalytics-test/datasets/test/test_partition/table4/p=4/q=4/kv3.txt
如果建表語句中指定的分割槽列為 p 和 q,則該表的資料檔案只有 kv3.txt.
資料檔案 kv1.txt 和 kv2.txt 將不會被計算在內。
- 如果有新增的OSS分割槽目錄,則需要手動執行 MSCK REPAIR TABLE table_name 命令或者ALTER ADD PARTITION命令使其生效,再進行查詢。
本文作者:金絡
本文為雲棲社群原創內容,未經