實踐資料湖iceberg 第五課 hive catalog特點
阿新 • • 發佈:2022-04-17
前言
不以完美記錄做為目標。以記錄自己學習過程為主線,進行記錄,記錄通過實踐,來了解原理,並把這個實踐過程分享給後來需要學習的同學。本節:瞭解hive catalog與hadoop catalog的區別,進行認識
1. 建立 hive catalog,建表
建立hive_catalog與表
CREATE CATALOG hive_catalog4 WITH ( 'type'='iceberg', 'catalog-type'='hive', 'uri'='thrift://hadoop101:9083', 'clients'='5', 'property-version'='1', 'warehouse'='hdfs:user/hive/warehouse/hive_catalog4' ); 在hive_catalog下建立資料庫 use catalog hive_catalog4; CREATE TABLE `hive_catalog4`.`default`.`sample` ( id BIGINT COMMENT 'unique id', data STRING );
2. 檢視hdfs
[root@hadoop101 ~]# hadoop fs -ls -R /user/hive/warehouse/sample/
drwxr-xr-x - root supergroup 0 2022-01-18 15:23 /user/hive/warehouse/sample/metadata
-rw-r--r-- 2 root supergroup 1150 2022-01-18 15:23 /user/hive/warehouse/sample/metadata/00000-a426dad1-4ec5-43d0-a7c8-f82601c3d055.metadata.json
3. 寫入資料到iceberg
Flink SQL> insert into `hive_catalog4`.`default`.`sample` values(1,'first line');
[INFO] Submitting SQL update statement to the cluster...
[INFO] Table update statement has been successfully submitted to the cluster:
Job ID: 57b4c09b1be6206a2d7a56410444521e
4. 檢查寫入後,表目錄結構的變化
}[root@hadoop101 ~]# hadoop fs -ls -R /user/hive/warehouse/sample/ drwxr-xr-x - root supergroup 0 2022-01-18 15:36 /user/hive/warehouse/sample/data -rw-r--r-- 2 root supergroup 721 2022-01-18 15:36 /user/hive/warehouse/sample/data/00001-0-c2e5157c-14da-4e49-8ef1-11d0d9266e3c-00001.parquet drwxr-xr-x - root supergroup 0 2022-01-18 15:36 /user/hive/warehouse/sample/metadata -rw-r--r-- 2 root supergroup 1150 2022-01-18 15:23 /user/hive/warehouse/sample/metadata/00000-a426dad1-4ec5-43d0-a7c8-f82601c3d055.metadata.json -rw-r--r-- 2 root supergroup 2180 2022-01-18 15:36 /user/hive/warehouse/sample/metadata/00001-8374a8ad-ccee-4eda-9944-e3ac8c7ea085.metadata.json -rw-r--r-- 2 root supergroup 5785 2022-01-18 15:36 /user/hive/warehouse/sample/metadata/a3ba6a34-0074-421b-a3fe-8e31e2db1546-m0.avro -rw-r--r-- 2 root supergroup 3758 2022-01-18 15:36 /user/hive/warehouse/sample/metadata/snap-7791812362316409514-1-a3ba6a34-0074-421b-a3fe-8e31e2db1546.avro
發現:資料寫入了data目錄,metadata發生變化,老的metadata不變,變化以增量檔案的形式進行記錄。hive catalog還是做了所有hadoop catalog的事情。