Flink sql 之 join 與 StreamPhysicalJoinRule （原始碼解析）

阿新 • • 發佈：2021-10-26

原始碼分析基於flink1.14

Join是flink中最常用的操作之一，但是如果濫用的話會有很多的效能問題，瞭解一下Flink原始碼的實現原理是非常有必要的

本文的join主要是指flink sql的Regular join 也就是平時我們的雙流join中普通的full join ,left join,right join

先找到calcite的relNode轉換rule

會將邏輯節點logiceJoin轉換成flink的FlinkLogicalJoin

接著看下哪裡Rule會轉換這個FlinkLogicalJoin

這裡會將這種普通join也就是regularJoin給匹配上

條件是

不是這三種join，並且

也不能join表示式包含時間屬性

匹配上次rule以後，接著

返回了StreamPhysicalJoin這個StreamPhysicalRel是個物理節點

他的translateToExecNode方法會返回StreamExecJoin，這個類就是我們具體的邏輯了

來看一下

首先會根據會join的型別，確定兩個流那個需要輸出，如果是fulljoin兩個流都會輸出，left join就是左流需要outer,right join就是right流需要outer

之後建立了具體的Operator,來看下這個StreamingJoinOperator

先看一下這個類裡面兩個比較重要的狀態

可以看到，左右流都會儲存一個狀態

看下狀態包裝類的描述

總共就三，方法，分別是加入資料，撤回資料，獲取這個資料關聯上的所有資料

在open方法裡面會根據上面計算的左右流是否需要輸出來初始化這個兩個狀態

這裡狀態包裝類的建立，將根據資料型別分為三種

1. 流帶主鍵，且join條件包含了主鍵

這樣資料唯一，就只用ValueState來存

2. 流帶主鍵，但join條件沒有包含主鍵

這裡就用MapState來存了，每次根據主鍵更新

3. 流不帶主鍵

就用map,直接把record當key存了

接著看processElement方法

這裡詳細的程式碼就不列出來了太複雜了，想看的直接看這個類

org.apache.flink.table.runtime.operators.join.stream.StreamingJoinOperator.processElement()

梳理邏輯我們還是來看下虛擬碼

主要分為兩段

1. 如果是 +Insert / +Update 型別的資料

判斷輸入資料的流需不需要輸出

如果需要輸出

看下和另外一個流關聯的上不

關聯的上輸出+I[record+other]s

關聯不上輸出+I[record+null]

將資料加入狀態中

如果不需要輸出

將資料加入狀態中

如果與另外一個流的資料關聯上了

如果另外一個流要outer, 輸出+I[record+other]s

如果另外一個流不用輸出，輸出 +I/+U[record+other]s

1. 如果是 -Delete / -Update 型別的資料

狀態裡面先撤回這條資料

如果與另外流沒有匹配上，如果輸入資料的流需要輸出，則輸出-D[record+null]

如果與另外一條流匹配上了

當前流outer,傳送-D[record+other]s,如果是inner join傳送-D/-U[record+other]s

最後的最後

用兩個流join的key作為狀態的selecter來完成transform的構建就完成了

總結一下：

Flink會根據join的key作為狀態分流的selecter，根據表是否有主鍵，join條件是否包含主鍵，來建立對應的state資料結構，來優化狀態的讀寫

兩條流會根據join型別，來設定此流需不需要輸出outer

當資料進入，查詢另一側的流是否有資料可以關聯上，以及兩條流的outer型別，來確定向下遊傳送的撤回和新增的資料

Flink sql 之 join 與 StreamPhysicalJoinRule （原始碼解析）

原始碼分析基於flink1.14 Join是flink中最常用的操作之一，但是如果濫用的話會有很多的效能問題，瞭解一下Flink原始碼的實現原理是非常有必要的

Flink sql 之兩階段聚合與 TwoStageOptimizedAggregateRule（原始碼分析）

本文原始碼基於flink1.14 上一篇文章分析了《flink的minibatch微批處理》的原始碼

Flink Sql 之 Calcite Volcano優化器（原始碼解析）

Calcite作為大資料領域最常用的SQL解析引擎，支援Flink , hive, kylin , druid等大型專案的sql解析

Flink sql 之 TopN 與 StreamPhysicalRankRule (原始碼解析)

基於flink1.14的原始碼做解析公司內有很多業務方都在使用我們Flink sql平臺做TopN的計算，今天同事突然問到我，Flink sql 是怎麼實現topN的？

java多執行緒之Thread建構函式（原始碼分析）

在上一篇文章中對執行緒狀態生命週期和常見的執行緒api進行了一個講解。這篇文章開始著重對其構造方法進行一個說明，也將揭曉為什麼我們呼叫了start方法就能啟動一個執行緒。

【轉載】淺談SQL Server事務與鎖（上篇）

一概述在資料庫方面，對於非DBA的程式設計師來說，事務與鎖是一大難點，針對該難點，本篇文章試圖採用圖文的方式來與大家一起探討。

cas客戶端流程詳解（原始碼解析）--單點登入

博主之前一直使用了cas客戶端進行使用者的單點登入操作，決定進行原始碼分析來看cas的整個流程，以便以後出現了問題還不知道是什麼原因導致的

AIBigKaldi（十一）| Kaldi的三音子模型訓練（上）（原始碼解析）

本文來自公眾號“AI大道理”。單音子模型的假設是一個音素的實際發音與其左右的音素無關。這個假設與實際並不符合。由於單音子模型過於簡單，識別結果不能達到最好，因此需要繼續優化升級。就此引入多音子的模型。

2.7 HashMap面試必問（原始碼解析）

技術標籤：# 2 集合篇Javahashmap資料結構面試必問hashMapHashMap面試必問java 2.7 HashMap中的資料

Flink sql 之微批處理與MiniBatchIntervalInferRule (原始碼分析)

本文原始碼基於flink1.14 平臺使用者在使用我們的flinkSql時經常會開啟minaBatch來優化狀態讀寫

【白話Flink理論】Flink中的Table API和Flink SQL—基本概念與api操作示例（一）

——wirte by 橙心橙意橙續緣，前言白話系列 ———————————————————————————— 也就是我在寫作時完全不考慮寫作方面的約束，完全把自己學到的東西、以及理由和所思考的東西等等都

|Flink SQL之維表JOIN

維表是數倉中的一個概念，維表中的維度屬性是觀察資料的角度，在建設離線數倉的時候，通常是將維表與事實表進行關聯構建星型模型。在實時數倉中，同樣也有維表與事實表的概念，其中事實表通常

SQL之Join的使用詳解

一.基本概念關於sql語句中的連線（join）關鍵字，是較為常用而又不太容易理解的關鍵字，下面這個例子給出了一個簡單的解釋 –建表user1,user2：

Table API 和 Flink SQL—第四章視窗（Windows）

時間語義，要配合視窗操作才能發揮作用。最主要的用途，當然就是開視窗、根據時間段做計算了。下面我們就來看看 Table API 和 SQL 中，怎麼利用時間欄位做視窗操作。

Table API 和 Flink SQL—第五章函式（Functions）

Flink Table 和 SQL 內建了很多 SQL 中支援的函式；如果有無法滿足的需要，則可以實現使用者自定義的函式（UDF）來解決。

基於RYU應用開發之負載均衡（原始碼開放）

>>> 編者按：本文介紹的是如何在RYU上通過使用selectgroup來實現multipath，從而實現流量的排程，完成簡單的負載均衡Demo。在OpenFlow13中有grouptable,可用於實現組播和冗餘容災等功能。實驗

puppet入門與掌握之puppet介紹一（介紹篇）

Puppet是開源的基於Ruby的系統配置管理工具，依賴於C/S的部署架構。主要開發者是Luke Kanies，遵循GPLv2版權協議。從1997年開始Kanies參與UNIX的系統管理工作，Puppet的開發源於這些經驗。因為對已有的配置

Java 之 JDBC執行緒池（原始碼版）

一、目錄二、程式碼 PoolConstant package cn.kgc.kb08.jdbc.dao3.impl; public interface PoolConstant {

Flink基礎之實現WordCount程式（Java版本多種寫法）

一、概述 WordCount（單詞計數）一直是大資料入門的經典案例，下面用 Java 實現 Flink 的 WordCount 程式碼

Lodash之throttle（節流）與debounce（防抖）總結

全手打原創，轉載請標明出處：https://www.cnblogs.com/dreamsqin/p/11305028.html 先重點說一下可能遇到的坑：主要在原本預設引數的設定以及兩個方法的選擇上，看完這篇總結你就知道怎麼回事了~

Flink sql 之 join 與 StreamPhysicalJoinRule （原始碼解析）

相關推薦