實踐資料湖iceberg 第四課在sqlclient中，以sql方式從kafka讀資料到iceberg（升級版本到flink1.12.7）

阿新 • • 發佈：2022-04-17

前言

之前使用flink1.11.6 iceberg0.11 沒寫成功，升級flink到1.12.7

升級後版本：
flink-1.12.7-bin-scala_2.12
flink-sql-connector-hive-2.3.6_2.12-1.12.7.jar
kafka_2.12-2.4.1

1. 啟動flink sql

[root@hadoop101 bin]# sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.12.1.jar  -j /opt/software/flink-sql-connector-hive-2.3.6_2.12-1.12.7.jar  -j /opt/software/flink-sql-connector-kafka_2.12-1.12.7.jar  shell 
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/module/flink-1.12.7/lib/log4j-slf4j-impl-2.16.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/module/hadoop-2.7.2/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
No default environment specified.
Searching for '/opt/module/flink-1.12.7/conf/sql-client-defaults.yaml'...found.
Reading default environment from: file:/opt/module/flink-1.12.7/conf/sql-client-defaults.yaml
No session environment specified.

Command history file path: /root/.flink-sql-history
                                   ▒▓██▓██▒
                               ▓████▒▒█▓▒▓███▓▒
                            ▓███▓░░        ▒▒▒▓██▒  ▒
                          ░██▒   ▒▒▓▓█▓▓▒░      ▒████
                          ██▒         ░▒▓███▒    ▒█▒█▒
                            ░▓█            ███   ▓░▒██
                              ▓█       ▒▒▒▒▒▓██▓░▒░▓▓█
                            █░ █   ▒▒░       ███▓▓█ ▒█▒▒▒
                            ████░   ▒▓█▓      ██▒▒▒ ▓███▒
                         ░▒█▓▓██       ▓█▒    ▓█▒▓██▓ ░█░
                   ▓░▒▓████▒ ██         ▒█    █▓░▒█▒░▒█▒
                  ███▓░██▓  ▓█           █   █▓ ▒▓█▓▓█▒
                ░██▓  ░█░            █  █▒ ▒█████▓▒ ██▓░▒
               ███░ ░ █░          ▓ ░█ █████▒░░    ░█░▓  ▓░
              ██▓█ ▒▒▓▒          ▓███████▓░       ▒█▒ ▒▓ ▓██▓
           ▒██▓ ▓█ █▓█       ░▒█████▓▓▒░         ██▒▒  █ ▒  ▓█▒
           ▓█▓  ▓█ ██▓ ░▓▓▓▓▓▓▓▒              ▒██▓           ░█▒
           ▓█    █ ▓███▓▒░              ░▓▓▓███▓          ░▒░ ▓█
           ██▓    ██▒    ░▒▓▓███▓▓▓▓▓██████▓▒            ▓███  █
          ▓███▒ ███   ░▓▓▒░░   ░▓████▓░                  ░▒▓▒  █▓
          █▓▒▒▓▓██  ░▒▒░░░▒▒▒▒▓██▓░                            █▓
          ██ ▓░▒█   ▓▓▓▓▒░░  ▒█▓       ▒▓▓██▓    ▓▒          ▒▒▓
          ▓█▓ ▓▒█  █▓░  ░▒▓▓██▒            ░▓█▒   ▒▒▒░▒▒▓█████▒
           ██░ ▓█▒█▒  ▒▓▓▒  ▓█                █░      ░░░░   ░█▒
           ▓█   ▒█▓   ░     █░                ▒█              █▓
            █▓   ██         █░                 ▓▓        ▒█▓▓▓▒█░
             █▓ ░▓██░       ▓▒                  ▓█▓▒░░░▒▓█░    ▒█
              ██   ▓█▓░      ▒                    ░▒█▒██▒      ▓▓
               ▓█▒   ▒█▓▒░                         ▒▒ █▒█▓▒▒░░▒██
                ░██▒    ▒▓▓▒                     ▓██▓▒█▒ ░▓▓▓▓▒█▓
                  ░▓██▒                          ▓░  ▒█▓█  ░░▒▒▒
                      ▒▓▓▓▓▓▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒░░▓▓  ▓░▒█░
          
    ______ _ _       _       _____  ____  _         _____ _ _            _  BETA   
   |  ____| (_)     | |     / ____|/ __ \| |       / ____| (_)          | |  
   | |__  | |_ _ __ | | __ | (___ | |  | | |      | |    | |_  ___ _ __ | |_ 
   |  __| | | | '_ \| |/ /  \___ \| |  | | |      | |    | | |/ _ \ '_ \| __|
   | |    | | | | | |   <   ____) | |__| | |____  | |____| | |  __/ | | | |_ 
   |_|    |_|_|_| |_|_|\_\ |_____/ \___\_\______|  \_____|_|_|\___|_| |_|\__|
          
        Welcome! Enter 'HELP;' to list all available commands. 'QUIT;' to exit.


Flink SQL>

2. 建kafka表

format=raw的只有在flink1.12後才支援

create table kafka_test_log
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup5',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'raw'
)


create table kafka_test_log_csv
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup6',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)
create table kafka_test_log2
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log2',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup5',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'raw'
)

create table kafka_test_log_csv
(
  data String
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_log',
  'properties.bootstrap.servers' = 'hadoop101:9092,hadoop102:9092,hadoop103:9092',
  'properties.group.id' = 'rickKafkaHiveGroup7',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)

3. 讀kafka的資料寫入到kafka

Flink SQL> insert into kafka_test_log2 select * from kafka_test_log;
[INFO] Submitting SQL update statement to the cluster...
[INFO] Table update statement has been successfully submitted to the cluster:
Job ID: 777618b911d015a9b80cab316edf3fe8

頁面檢視
讀進來和發出去的條數都是0，

使用sql直接查，發現把資料完整從 kafka_test_log寫到 kafka_test_log2;
結論：flink的insert into 語法的mertrix有bug,顯示條數有問題

Flink SQL> select * from kafka_test_log2;

4.寫入到iceberg

程式碼如下（示例）：

4.1 建立 hive catalog 從kafka->iceberg

建立hive_catalog與表
CREATE CATALOG hive_catalog4 WITH (
  'type'='iceberg',
  'catalog-type'='hive',
  'uri'='thrift://hadoop101:9083',
  'clients'='5',
  'property-version'='1',
  'warehouse'='hdfs:///user/hive/warehouse/hive_catalog4'
);

在hive_catalog下建立資料庫
use catalog hive_catalog4;
 

create table `hive_catalog4`.`default`.`ib_hive_test_log`(
 data String
);

在hive datalog下建表，寫入iceberg

insert into  `hive_catalog4`.`default`.`ib_hive_test_log` select * from   default_catalog.default_database.kafka_test_log_csv

4.2 建立 hadoop catalog ，從kafka->iceberg


CREATE CATALOG hadoop_catalog4 WITH (
  'type'='iceberg',
  'catalog-type'='hadoop',
  'warehouse'='hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog4',
  'property-version'='1'
);
use catalog hadoop_catalog4;
create database iceberg_db;
create table `hadoop_catalog4`.`iceberg_db`.`ib_hadoop_test_log`(
 data String
);
insert into hadoop_catalog4.iceberg_db.ib_hadoop_test_log select data from  default_catalog.default_database.kafka_test_log  ;

到hdfs檢視

生產者生產看看，發現iceberg的資料目錄還是0，iceberg的輸出沒有

[root@hadoop101 ~]# kafka-console-producer.sh --topic test_log  --broker-list hadoop101:9092,hadoop102:9092

總結

經過測試，讀寫kafka都沒有問題有想過是否消費者組的問題，更換消費者組，還是沒輸出。。。 hive catalog 與 hadoop catalog都嘗試過，沒用

是不是iceberg有問題?

實踐資料湖iceberg 第四課在sqlclient中，以sql方式從kafka讀資料到iceberg（升級版本到flink1.12.7）

前言之前使用flink1.11.6 iceberg0.11 沒寫成功，升級flink到1.12.7 升級後版本： flink-1.12.7-bin-scala_2.12 flink-sql-connector-hive-2.3.6_2.12-1.12.7.jar kafka_2.12-2.4.1

實踐資料湖iceberg 第三課在sqlclient中，以sql方式從kafka讀資料到iceberg

環境說明從實踐中瞭解hive catalog 的特點環境說明： flink1.11.6 iceberg 0.11 kafka2.12_2.4.1

實踐資料湖iceberg 第五課 hive catalog特點

前言不以完美記錄做為目標。以記錄自己學習過程為主線，進行記錄，記錄通過實踐，來了解原理，並把這個實踐過程分享給後來需要學習的同學。

3.《SQL必知必會》第四課過濾資料

技術標籤：sql必知必會mysql 一、知識 WHERE 用法如下：表面抓住價格在3-10之間的資料

Python第四課——import匯入包和for迴圈(1)

hello大家好，我是你們的小蒟蒻鴨！我終於開始了漫長的暑假生活，必不可少的是寫博和作業，那話不多說，進入正題！

typescript第四課(內容來自官網)

類介紹傳統的JavaScript程式使用函式和基於原型的繼承來建立可重用的元件，但對於熟悉使用面向物件方式的程式設計師來講就有些棘手，因為他們用的是基於類的繼承並且物件是由類構建出來的。從ECMAScript 2015，也

Python第四課——import匯入包和for迴圈(2)

hello大家好，我是你們的小蒟蒻鴨，額。。。似乎好像彷彿也許可能我又拖更了。。。實在抱歉(＞人＜；)

第四課：部署Dashboard服務

13 部署dashboard（master01） 13.1 建立dashboard證書 13.1.1 建立目錄 mkdir /root/certs && cd /root/certs

MYSQL 第四課常見函式

概念類似於Java的方法將一組邏輯語句封裝在方法體中，對外暴露方法名，好處 1 隱藏了實現細節

2020.9.22 第四課運算子表示式和語句

運算子型別作用算術運算子用於處理四則運算賦值運算子用於將表示式的值賦給變數

MATLAB-《10分鐘學習GUI系列》-【第四課】 - 常用物件介紹1

hf = figure;%新建一個視窗 get(hf);%獲取hf的所有屬性 %CloseRequestFcn屬性，屬性值\'closereq代表關閉視窗

2020.10.10 第四課

輸入輸出重定向簡而言之，輸入重定向是指把檔案匯入到命令中，而輸出重定向則是指把原本要輸出到螢幕的資料資訊寫入到指定檔案中。在日常的學習和工作中，相較於輸入重定向，我們使用輸出重定向的頻率更高

20201010 第四課重定向和變數

》重定向符號前面需要空格後面不能有空格輸入重定向 <0 標準輸入輸出重定向

python第四課

一、運算子 +、-、*、/、%、//、==、!=、>、<、>=、<=、<> in、not in ：包含、不包含

第四課：c++類的構造

技術標籤：軟體知識c++ c++類的構造 #include using namespace std; class Test { private: int i; int j; public: int getI(){ return i;} int getJ(){return j;} }; Test ht; int main() { Test t; Test* pt

Python自學之路：第四課

第4課測試題： 0. 請問以下程式碼會列印多少次“我愛魚C！” while \'C\': print(\'我愛魚C!\')

嵌入式C學習第四課

技術標籤：嵌入式C 結構體的引數傳遞參考文章：https://blog.csdn.net/lin37985/article/details/38582027

實訓第四課-位運算與二、八、十、十六進位制

星期一第一臺計算機：ENIAC,出生於1946年2月14日賓夕法尼亞大學;byte=8bit; 位運算子

【C++基礎教程】第四課

上次的課後練習第1題輸出：第二題輸出：1 第三題： #include<iostream> #include<cmath>

第四課類和物件

面向物件一、類物件面向物件概念二、如何宣告定義建立物件三、三大特徵：封裝、繼承、多型

實踐資料湖iceberg 第四課 在sqlclient中，以sql方式從kafka讀資料到iceberg（升級版本到flink1.12.7）

前言

1. 啟動flink sql

2. 建kafka表

3. 讀kafka的資料寫入到kafka

4.寫入到iceberg

4.1 建立 hive catalog 從kafka->iceberg

4.2 建立 hadoop catalog ，從kafka->iceberg

總結

相關推薦

實踐資料湖iceberg 第四課在sqlclient中，以sql方式從kafka讀資料到iceberg（升級版本到flink1.12.7）