Flink sql 之 TopN 與 StreamPhysicalRankRule (原始碼解析)

阿新 • • 發佈：2021-10-20

基於flink1.14的原始碼做解析

公司內有很多業務方都在使用我們Flink sql平臺做TopN的計算，今天同事突然問到我，Flink sql 是怎麼實現topN的？

蒙圈了，這塊原始碼沒看過啊，業務要問起來怎麼辦，趕快開啟原始碼補一下

拿到這個問題先冷靜分析一下範圍

首先肯定屬於Flink sql模組，原始碼裡面肯定是在flink-table-planner包裡面，接著topN那不就是ROW_NUMBER嘛，是個函式呀

既然如此那就從flink原始碼的系統函式作為線索開始找起來，來到org.apache.calcite.sql.fun.SqlStdOperatorTable類

果然找到了，那calcite的某個rule肯定有個地方判斷了它，繼續查呼叫鏈

不出所料，FlinkLogicalRankRuleBase這個calcite的rule裡面果然根據這個function的型別來確定rank的型別了

看下這個rule的匹配條件

這裡也好理解，overAgg的時候會判斷這個rank以及對應的型別

這是隻是做了一下簡單的提取了rank的欄位啊，提取謂語啊，提取表示式啊這一些拿資訊的操作

然後直接生成新的relNode叫FlinkLogicalRank通過transformTo直接返回了這個等價節點

既然是relNode那肯定又會有calcite的rule去處理它，來找一找

批處理的就不管了，從名字就可以看出來我們要找的類了

看個不帶window的吧

返回StreamPhysicalRank

這個類是一個FlinkPhysicalRel是可以轉換成execNode的

返回的這個StreamExecRank就是可以轉換成具體的Flink的運算元了，具體邏輯就在裡面了

接下來看下row_number的具體邏輯，找到方法translateToPlanInternal

根據策略主要分為三種類型

AppendFastStrategy （輸入僅包含插入時）

RetractStrategy （輸入包含update和delete）

UpdateFastStrategy (輸入不應包含刪除且輸入有給定的primaryKeys且按欄位排序時)

來看個retractStrategy的吧

先通過sort的欄位獲取一個用於排序RowData的比較器ComparableRecordComparator

根據比較器建立RetractableTopNFunction

這個類還有兩個主要的狀態資料結構

dataState這個map用來存放當key相同的所有資料會放在同一個list裡面

treeMap這個可排序的map就是通過上面我們sql裡面定義的sort by 來排序資料的，Long是指這個相同的key有多少個record

!!!!!!!!!!! 那就是用java的treeMap排序唄

繼續往下看

主邏輯就是這個了

每進入一條資料，會根據這條資料的型別劃分

當資料是Insert , UPDATE_AFTER型別是會走emitRecordsWithRowNumber（）方法

當資料是UPDATE_BEFORE，DELETE型別會走retractRecordWithRowNumber （）方法

來看下具體邏輯先看INSERT的

遍歷treeMap

解讀一下，當資料是insert資料的時候

INSERT資料會先放到treeMap裡面去，delete則不會

按順序遍歷treeMap

當遍歷過程中發現遍歷的key與當前資料的key相同時，和當前資料key相同的所有資料資料（dataState中的LIST），全部撤回並且更新他們的rowNumber+1

繼續遍歷treeMap

之後的資料全部撤回UpdateBefore，並且向下遊傳送UpdateAfter使rowNumber+1，遍歷直到已經到第TopN個數據迴圈結束

當資料是DELETE型別的時候，會和Insert反過來，當前key之後的資料全部撤回，然後rowNumber-1

整個處理流程差不多就結束了，可以看到rowNumber當N較大且排序變化頻繁的時候，效能消耗還是非常大的，極端情況下游的資料會翻很多倍

這個還需要注意在其他兩個策略中還有一個引數，table.exec.topn.cache-size

影響下面這個本地lruCache的大小

調大可以減少狀態的訪問，可以按需要新增

Flink sql 之 TopN 與 StreamPhysicalRankRule (原始碼解析)

基於flink1.14的原始碼做解析公司內有很多業務方都在使用我們Flink sql平臺做TopN的計算，今天同事突然問到我，Flink sql 是怎麼實現topN的？

Flink sql 之 join 與 StreamPhysicalJoinRule （原始碼解析）

原始碼分析基於flink1.14 Join是flink中最常用的操作之一，但是如果濫用的話會有很多的效能問題，瞭解一下Flink原始碼的實現原理是非常有必要的

Flink Sql 之 Calcite Volcano優化器（原始碼解析）

Calcite作為大資料領域最常用的SQL解析引擎，支援Flink , hive, kylin , druid等大型專案的sql解析

Flink sql 之微批處理與MiniBatchIntervalInferRule (原始碼分析)

本文原始碼基於flink1.14 平臺使用者在使用我們的flinkSql時經常會開啟minaBatch來優化狀態讀寫

Flink sql 之兩階段聚合與 TwoStageOptimizedAggregateRule（原始碼分析）

本文原始碼基於flink1.14 上一篇文章分析了《flink的minibatch微批處理》的原始碼

跟我學RocketMQ之批量訊息傳送原始碼解析

上篇文章跟我學RocketMQ之訊息傳送原始碼解析中，我們已經對普通訊息的傳送流程進行了詳細的解釋，但是由於篇幅問題沒有展開講解批量訊息的傳送。本文中，我們就一起來集中分析一下批量訊息的傳送是怎樣的邏輯。

element元件庫broadcast與dispatch原始碼解析

周所周知，Vue在2.0版本中去除了$broadcast方法以及$dispatch方法，最近在學習餓了麼的Element時重新實現了這兩種方法，並以minix的方式引入。

ReentrantLock與synchronized 原始碼解析

一.概念及執行原理在 JDK 1.5 之前共享物件的協調機制只有 synchronized 和 volatile，在 JDK 1.5 中增加了新的機制 ReentrantLock，該機制的誕生並不是為了替代 synchronized，而是在 synchronized 不適用的情

NIO之路--MINA框架原始碼解析

MINA框架是基於NIO的非同步IO框架，上一文已經對MINA的理論及實踐做了分析，本文將對於MINA的整體原始碼實現進行分析。

【白話Flink理論】Flink中的Table API和Flink SQL—基本概念與api操作示例（一）

——wirte by 橙心橙意橙續緣，前言白話系列 ———————————————————————————— 也就是我在寫作時完全不考慮寫作方面的約束，完全把自己學到的東西、以及理由和所思考的東西等等都

|Flink SQL之維表JOIN

維表是數倉中的一個概念，維表中的維度屬性是觀察資料的角度，在建設離線數倉的時候，通常是將維表與事實表進行關聯構建星型模型。在實時數倉中，同樣也有維表與事實表的概念，其中事實表通常

Flink SQL Client的Rolling Aggregation實驗解析

技術標籤：Flink 基本概念 stddev 這個stddev是Strandard Deviation的縮寫下面來分析一個FLINK SQL 執行Rolling Aggregation的例子

《原神攻略》胡桃技能、命之座與隊伍搭配解析

相信很多玩家在抽出胡桃後對其技能屬性還不是很瞭解，那麼這名角色的技能有什麼，該怎麼搭配隊伍，請看下面由“潘德達利安”帶來的《原神》胡桃技能、命之座與隊伍搭配解析，一起來看看吧。

老生常談系列之Aop--Spring Aop原始碼解析（一）

老生常談系列之Aop--Spring Aop原始碼解析（一）前言上一篇文章老生常談系列之Aop--Spring Aop原理淺析大概闡述了動態代理的相關知識，並且最後的圖給了一個Spring Aop實現的邏輯猜測，這是一種很普通的情形，如下

基於Apollo3 Blue MCU晶片的可穿戴產品解決方案開發之健康手環原始碼解析

一前記健康手環是Apollo3 Blue的一個主打業務，也是該晶片最適合做的產品，在健康穿戴裝置領域，該晶片有著對場景的透徹理解和技術的深厚積累。

Java 集合系列03之 ArrayList詳細介紹(原始碼解析)和使用示例

概要上一章，我們學習了Collection的架構。這一章開始，我們對Collection的具體實現類進行講解；首先，講解List，而List中ArrayList又最為常用。因此，本章我們講解ArrayList。先對ArrayList有個整體認識，再學習它

Laravel框架原始碼解析之模型Model原理與用法解析

本文例項講述了Laravel框架原始碼解析之模型Model原理與用法。分享給大家供大家參考，具體如下：

Flink實戰（111）：flink-sql使用（十九）Flink 與 hive 結合使用（八）Hive Streaming 實戰解析

Flink 1.11 正式釋出已經三週了，其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久釋出了，所以就寫了一篇 Zeppelin 上的 Flink Hive Streaming 的實戰解析。本文主要從以下幾部分跟

SpringMVC之從ExceptionHandlerMethodResolver原始碼解析與@ExceptionHandler的使用注意點

原始碼分析一、建構函式 org.springframework.web.method.annotation.ExceptionHandlerMethodResolver 僅有一個建構函式，原始碼如下：

Spring自定義標籤配置的原始碼解析與實現

概述 Spring中，從AbstractXmlApplicationContext開始，通過對NamespaceHandler &BeanDefinitionParser，來實現自定義xml配置的功能。

Flink sql 之 TopN 與 StreamPhysicalRankRule (原始碼解析)

相關推薦