Flink中常用的運算元總結

阿新 • • 發佈：2020-12-27

技術標籤：Flink Flink 運算元常用運算元總結

總結flink中常用的運算元

1. keyBy

keyBy有兩個主要的應用，資料分發（處理資料傾斜、平衡資料），上下游運算元非同步處理

1.1 資料分發

這個運算元作為一個數據分發策略【分發還有還有的策略，例如：reblance（輪詢），partitionCustom（自定義）】，

keyBy是根據key的hashcode對分割槽數取模，根據某個欄位作為key進行分組，key相同的會被分到一起，如下圖示例，相同顏色的正方形分配到一起。

當DataStream的並行分割槽中資料發生傾斜時，我們會想要在這些分割槽中，重新平衡這些資料。這時我們可以通過一種方式來實現，使所有task會收到相同的資料。可以使用的分割槽策略有：

keyBy，根據key的hashCode對分割槽數取模（hashCode%partitionNum，產生的是keyedStream）
shuffle分割槽策略（random，產生的還是dataStream）
rebalance分割槽策略（Round-Robin<詢排程>，產生的還是dataStream）
resclae，和rebalance類似，只是做了更細粒度的劃分

1.2 非同步處理

在DataStream中，經過keyBy後悔程式設計KeyedStream，這時會將被KeyBy分割的上下游運算元非同步計算。具體示例請參考這篇文章

1.3 參考資料

https://www.jianshu.com/p/944ed619891d

https://blog.csdn.net/yanshien840826/article/details/111693206

https://www.pianshen.com/article/26011190679/

2. sum運算元

獲取一組資料流中的數值之和，如下wordcount程式碼示例

// scala 
//flink streaming wordcount demo
val data = senv.fromElements("hello defu", "hello hadoop", "hello flink")
data.flatMap(line => line.split("\\s"))
    .map(w => (w, 1))
    .keyBy(0)
    .sum(1)    //這計算下標index是1那一列的sum總和
    .print
    
senv.execute()

3. groupBy

groupBy運算元是DataSet類中的一個方法，意思是

Groups a {@link Tuple} {@link DataSet} using field position keys.

即groupBy(int...fieldPosition)的引數值是Tuple的元素位置 0 、1、2等，即Tuple中Field position。

相當於資料庫中的groupby，即對DataSet資料集根據多個欄位進行分組。

Flink中常用的運算元總結

技術標籤：FlinkFlink運算元常用運算元總結總結flink中常用的運算元 1. keyBy keyBy有兩個主要的應用，資料分發（處理資料傾斜、平衡資料），上下游運算元非同步處理

Java中常用容器總結

1、Collection介面資料都是單個單個的儲存在其中的。常用方法：　　　　　　boolean add（Object element）　　　　　　　新增元素

MongoDB中的常用語句總結大全

前言 MongoDB與MySQL基本語句還是有很大區別的，今天再介紹一下MongoDB的一些常用的基本語句，下面話不多說了，來一起看看詳細的介紹吧

Oracle中字串擷取常用方法總結【推薦】

substr 函式：擷取字串語法：SUBSTR(string，start， [length]) string：表示源字串，即要擷取的字串。

Java中的Collections類(工具類)十二大常用方法總結

Collections類 Collections類是Java中針對集合類的一個工具類，其中提供一系列靜態方法。

jackson中@JsonProperty、@JsonIgnore等常用註解總結

jackson的maven依賴 1.@JsonProperty :此註解用於屬性上，作用是把該屬性的名稱序列化為另外一個名稱，如把trueName屬性序列化為name，@JsonProperty(\"name\")。

Mysql、Oracle中常用的多表修改語句總結

今天在sql訓練題庫中看到了這題，這是一道很有代表性的多表修改題，其實解出這道題並不難，無論是mysql中還是oracle中都有很多種解法，接下來就好好歸納一下這些解法。

js中字串常用方法總結 slice,substr和substring方法的對比 search() match() replace() includes()...

技術標籤：javascript筆記 charAt() let str=stringObject.charAt(index) 用法：獲取下標對應的字元，也可以使用陣列的訪問形式字串[下標]。

[每天一個python小技巧]Python中標準庫OS的常用方法總結

技術標籤：python處理python 前言：最近使用的資料相關的操作比較多，所以對於os的操作使用頻繁，為了避免點開N個瀏覽器進行檢視不同的方法，現將自己常用以及網上所提及的總結歸納如下。

總結一下javascript中常用處理相容性所需要寫的程式碼！

2019獨角獸企業重金招聘Python工程師標準>>> 一、事件程式的指派； if(document.addEventListener){

工作中常用的js方法總結

1、npm包之query-string的用法。這個包在開發中經常用的到，常用於取連結的引數值。

Vue專案中常用的工具函式總結

目錄前言一、自定義聚焦指令1、方式一2、方式二3、方式三二、輸入框防抖1、需求2、思路3、程式碼實現三、關鍵字高亮1、需求2、思路3、程式碼演示四、格式化Excel表格中儲存的時間1、需求2、程式碼演示總結前言

js中陣列常用方法總結

js中陣列常用方法總結運算元組的常用方法運算元組，印象中運算元組的方法很多，下面總結了一下陣列中常用的幾個方法：

總結eclipse中常用好用的快捷鍵或者自定義一下快捷鍵：

總結eclipse中常用好用的快捷鍵或者自定義一下快捷鍵：一、eclipse中常有好用的快捷鍵：

總結idea中常用好用的快捷鍵

真心推薦快捷鍵：格式化程式碼、檢視繼承關係、查詢某個類/介面、游標回退上一個位置、自動匯入變數定義

總結TS中常用的運算子

最近在使用ts開發專案，開發中經常有想用某個操作符但是因掌握不熟不知道該用哪個，本文就整理了使用ts在日常開發中常用的運算子和操作符，理解記憶之餘便於溫故知新

【經驗分享】Django開發中常用到的資料庫操作總結

查詢類操作 1）查詢所有的結果，相當 sql 中的 select * fromlist = Test.objects.all() 2）條件查詢，filter 相關 sql 中的 where，用於過濾查詢結果

Java程式中常用的四種執行緒池示例

在Java中使用執行緒池，可以用ThreadPoolExecutor的建構函式直接創建出執行緒池例項，如何使用參見之前的文章Java執行緒池構造引數詳解。不過，在Executors類中，為我們提供了常用執行緒池的建立方法。接下來我們就來

Spark 系列（四）—— RDD常用運算元詳解

一、Transformation spark 常用的 Transformation 運算元如下表： Transformation 運算元 Meaning（含義）

Newtonsoft.Json.Linq 常用方法總結

1、Entity to Json 1.1、準備工作我們以如下的 Person 類舉例，其中包含了常用的資料型別：

Flink中常用的運算元總結

總結flink中常用的運算元

1. keyBy

1.1 資料分發

1.2 非同步處理

1.3 參考資料

2. sum運算元

3. groupBy

相關推薦