FlinkSQL實踐記錄4 -- 實時更新的維表如何join

阿新 • • 發佈：2022-01-25

1. 背景

對於不定期更新的維表，以什麼元件來處理作為FlinkSQL的source表？HBase?Kafka?或mysql？哪一種方案能得到正確結果？
且需要考慮到事實表和維表關聯的時候，是否需要和維錶的歷史版本關聯？還是隻關聯維表的最新版本？
下文以只關聯維表的最新版本為目標進行測試。

2. 實踐過程

2.1 將kafka的compacted topic作為維表

(1) kafka普通主題修改為compacted topic

bin/kafka-topics.sh --alter --topic my_topic_name --zookeeper my_zookeeper:2181 --config cleanup.policy=compact

(2) kafka生產者程式碼

        // 建立訊息
        DateTimeFormatter dtf = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss.nnnnnnnnn");
        for (int i = 2; i < 8; i++) {
            JSONObject json1 = new JSONObject();
            json1.put("key", i+"");
            //json.put("update_time", dtf.format(LocalDateTime.now()));
            JSONObject json = new JSONObject();
            json.put("id", i+"");
            json.put("name", "name444"+i);
            ProducerRecord<String, String> record = new ProducerRecord<String, String>(
                    "flinksqldim",
                    json1.toJSONString(),
                    json.toJSONString()
            );
         }

(3) FlinkSQL主體程式碼

        // 建立執行環境
        //EnvironmentSettings settings = EnvironmentSettings.inStreamingMode();
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        EnvironmentSettings settings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .inStreamingMode()
                .build();

        TableEnvironment tableEnv = StreamTableEnvironment.create(env, settings);

        // 把kafka中的topic對映成一個輸入臨時表
        tableEnv.executeSql(
                "CREATE TABLE sensor_source(" +
                        " id STRING, " +
                        " name STRING, " +
                        " o_time TIMESTAMP(3), " +
                        " WATERMARK FOR o_time AS o_time " +
                        " ) WITH (" +
                        " 'connector' = 'kafka'," +
                        " 'topic' = 'flinksqldemo'," +
                        " 'properties.bootstrap.servers' = 'ip:port'," +
                        " 'properties.group.id' = 'flinksqlCount'," +
                        " 'scan.startup.mode' = 'earliest-offset'," +
                        " 'format' = 'json')"
        );
        // 把kafka中資料 對映成輸入維表 - 實時變更的維表
        tableEnv.executeSql(
                "CREATE TABLE dim_source (" +
                        "               id STRING," +
                        "               name STRING," +
                        "               update_time TIMESTAMP(3) METADATA FROM 'timestamp' VIRTUAL, " +
                        "               WATERMARK FOR update_time AS update_time, " +
                        "               PRIMARY KEY (id) NOT ENFORCED" +
                        ") WITH (" +
                        " 'connector' = 'upsert-kafka'," +
                        " 'topic' = 'flinksqldim'," +
                        " 'properties.bootstrap.servers' = 'ip:port'," +
                        " 'properties.group.id' = 'flinksqlDim'," +
                        " 'key.format' = 'json'," +
                        " 'value.format' = 'json')"
        );

        // 把Mysql中的表對映為一個輸出臨時表
        String mysql_sql = "CREATE TABLE mysql_sink (" +
                "               name STRING," +
                "               cnt BIGINT," +
                "               PRIMARY KEY (name) NOT ENFORCED" +
                ") WITH (" +
                " 'connector' = 'jdbc'," +
                " 'url' = 'jdbc:mysql://ip:port/kafka?serverTimezone=UTC'," +
                " 'table-name' = 'count_info'," +
                " 'username' = 'xxx'," +
                " 'password' = 'xxx'" +
                ")";

       tableEnv.executeSql(mysql_sql);

        // 插入資料
        TableResult tableResult = tableEnv.executeSql(
                "INSERT INTO mysql_sink " +
                        "SELECT b.name, count(*) as cnt " +
                        "FROM sensor_source as a " +
                        "INNER JOIN dim_source as b " +
                        "on a.id = b.id " +
                        "where a.id > 3 " +
                        "group by b.name "
                       // "order by name "
        );
        System.out.println(tableResult.getJobClient().get().getJobStatus());

3. 試錯

3.1 使用Regular Joins 常規join

kafka生產者程式碼

        for (int i = 1; i < 10; i++) {
            //json.put("update_time", dtf.format(LocalDateTime.now()));
            JSONObject json = new JSONObject();
            json.put("id", i+"");
            json.put("name", "name555"+i);
            ProducerRecord<Integer, String> record = new ProducerRecord<Integer, String>(
                    "flinksqldim2",
                    i,
                    json.toJSONString()
            );
            // 傳送訊息
            Future<RecordMetadata> future = producer.send(record);

FlinkSQL處理程式碼

        // 建立執行環境
        //EnvironmentSettings settings = EnvironmentSettings.inStreamingMode();
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        EnvironmentSettings settings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .inStreamingMode()
                .build();

        TableEnvironment tableEnv = StreamTableEnvironment.create(env, settings);

        // 把kafka中的topic對映成一個輸入臨時表
        tableEnv.executeSql(
                "CREATE TABLE sensor_source(" +
                        "id STRING, " +
                        "name STRING, " +
                        "o_time TIMESTAMP(3), " +
                        " WATERMARK FOR o_time AS o_time " +
                        ") WITH  (" +
                        " 'connector' = 'kafka'," +
                        " 'topic' = 'flinksqldemo'," +
                        " 'properties.bootstrap.servers' = 'ip:port'," +
                        " 'properties.group.id' = 'flinksqlCount'," +
                        " 'scan.startup.mode' = 'earliest-offset'," +
                        " 'format' = 'json')"
        );
        // 把kafka中資料 對映成輸入維表 - 實時變更的維表， 非compacted topic
        tableEnv.executeSql(
                "CREATE TABLE dim_source ( " +
                        "               id STRING, " +
                        "               name STRING, " +
                        "               update_time TIMESTAMP(3) METADATA FROM 'timestamp' VIRTUAL, " +
                        "               WATERMARK FOR update_time AS update_time " +
                        ") WITH (" +
                        " 'connector' = 'kafka'," +
                        " 'topic' = 'flinksqldim2'," +
                        " 'properties.bootstrap.servers' = 'ip:port'," +
                        " 'properties.group.id' = 'flinksqlDim'," +
                        " 'scan.startup.mode' = 'earliest-offset'," +
                        " 'format' = 'json')"
        );


        // 把Mysql中的表對映為一個輸出臨時表
        String mysql_sql = "CREATE TABLE mysql_sink (" +
                "               name STRING," +
                "               cnt BIGINT," +
                "               PRIMARY KEY (name) NOT ENFORCED" +
                ") WITH (" +
                " 'connector' = 'jdbc'," +
                " 'url' = 'jdbc:mysql://ip:port/kafka?serverTimezone=UTC'," +
                " 'table-name' = 'count_info'," +
                " 'username' = 'xxx'," +
                " 'password' = 'xxx'" +
                ")";

        tableEnv.executeSql(mysql_sql);

        // 插入資料
        TableResult tableResult = tableEnv.executeSql(
                "INSERT INTO mysql_sink " +
                        "SELECT b.name, count(*) as cnt " +
                        "FROM sensor_source a " +
                        "JOIN dim_source b " +
                        "on a.id = b.id " +
                        "where a.id > 3 " +
                        "group by b.name "
        );
        System.out.println(tableResult.getJobClient().get().getJobStatus());

維表流更新了幾次資料後，結果表count_info中資料錯亂

FlinkSQL實踐記錄4 -- 實時更新的維表如何join

1. 背景對於不定期更新的維表，以什麼元件來處理作為FlinkSQL的source表？HBase?Kafka?或mysql？哪一種方案能得到正確結果？

Flink例項（五十九）：維表join（三）Flink 使用 broadcast 實現維表或配置的實時更新

問題導讀1.本文介紹了幾種維表方案？2.各個方案有什麼優缺點？3. broadcast如何實現實時更新維表案例？通過本文你能 get 到以下知識：

Flink例項（五十八）：維表join（二）Flink維表Join實踐

https://blog.csdn.net/chybin500/article/details/106482620/ 這個文章是根據【實時數倉篇】基於 Flink 的典型 ETL 場景實現寫的，對視訊中講解的四種維表Join分別實現了一些Demo。

FlinkSQL實踐記錄2

1. 背景昨天《FlinkSQL實踐記錄1》對FlinkSql做了簡單的使用insert into .. select ..，今天對聚合運算做一些實踐。

|Flink SQL之維表JOIN

維表是數倉中的一個概念，維表中的維度屬性是觀察資料的角度，在建設離線數倉的時候，通常是將維表與事實表進行關聯構建星型模型。在實時數倉中，同樣也有維表與事實表的概念，其中事實表通常

UniqueMergeTree：支援實時更新刪除的 ClickHouse 表引擎

UniqueMergeTree 開發的業務背景首先，我們看一下哪些場景需要用到實時更新。我們總結了三類場景：

SQL Server 遠端更新目標表資料的儲存過程

本文給大家分享一個遠端更新目標庫資料的儲存過程，適用於更新列名一致，主鍵為Int型別，可遠端連結的資料庫。

VUE table表格動態新增一列資料,新增的這些資料不可以編輯（v-model繫結的資料不能實時更新）

一、問題用elementUi橫著增加一行資料沒毛病，可以操作新增一列，這新增的這一列，第一次去賦值的時候值是改了，但沒生效

SpringBoot如何實現一個實時更新的進度條的示例程式碼

前言博主近期接到一個任務，大概內容是：匯入excel表格批量修改狀態，期間如果發生錯誤則所有資料不成功，為了防止重複提交，做一個類似進度條的東東。

我的pytest系列 -- pytest+allure+jenkins專案實踐記錄(1)

一次偶然的面試機會，一位面試官給我的啟發，為什麼不用pytest代替unittest做自動化呢？你應該學學pytest，這個對你有好處！故事就從這裡開始，我已經準備好酒了

小程式的資料實時更新websocket長連線

可以寫在onload或者onshow裡，也可以寫在方法裡在任何地方呼叫wx.onSocketOpen(() => {

JavaScript實時更新當前的時間的示例程式碼

實現的效果如下：時間會實時更新具體的JS程式碼如下 var dateStart; function start() {

canal實時同步mysql表資料到Kafka

準備對於自建 MySQL , 需要先開啟 Binlog 寫入功能，配置 binlog-format 為 ROW 模式，my.cnf 中配置如下

2020暑假專案-車輛派遣管理系統開發記錄#4

2020暑假專案-車輛派遣管理系統開發記錄#4 內容展示 1、今日完成內容， - 駕駛員資訊列表完成，及資訊更新維護；使用layui的表格編輯功能，可直接在表格中修改資訊

GitLab CI/CD實踐記錄

GitLab Runner 參考：《Configuring GitLab Runners》 In GitLab CI/CD, Runners run the code defined in .gitlab-ci.yml. A GitLab Runner is a lightweight, highly-scalable agent that picks up a CI job thr

常用短語欄位（實時更新）

常用配置、類、短語總結 1、pom.xml 2、applicationContext.xml <?xml version="1.0" encoding="UTF-8"?>

【python】通過Mutilindex生成二維表資料

一，Mutilindex MultiIndex表示多級索引，它是從Index繼承過來的，其中多級標籤用元組物件來表示。

資料庫實踐丨MySQL多表join分析

摘要：在資料庫查詢中,往往會需要查詢多個表的資料,比如查詢會員資訊同時查詢關於這個會員的訂單資訊,如果分語句查詢的話,效率會很低,就需要用到join關鍵字來連表查詢了。

《劍指offer》4：二維陣列查詢

一.題目描述在一個二維陣列中（每個一維陣列的長度相同），每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函式，輸入這樣的一個二維陣列和一個整數，判斷陣列中是否含有該整

vue專案中實現定時重新整理頁面（重新渲染資料實時更新）

需求: 每隔一分鐘自動重新整理一下當前頁面，同時傳送請求，重新渲染資料，以到達實時更新。

FlinkSQL實踐記錄4 -- 實時更新的維表如何join

1. 背景

2. 實踐過程

2.1 將kafka的compacted topic作為維表

3. 試錯

3.1 使用Regular Joins 常規join

相關推薦