spark和flink中計算topN的方法

阿新 • • 發佈：2021-12-13

一、SPARK

　　其中top運算元呼叫的takeOrdered運算元，takeOrdered運算元底層使用的是優先佇列（BoundedPriorityQueue），首先進入的是mapPatition，然後使用reduce將每個分割槽資料進行合併

sortBy + take

val url: URL = Launcher.getClass.getClassLoader.getResource("word.dat")
val lines: RDD[String] = sc.textFile(url.getPath)
lines
   .flatMap(_.split("\\s+"))
   .map(_  
-> 1)
   .reduceByKey(_ + _)
   .sortBy(_._2, false)
   .take(3)
   .foreach(println)

top

val url: URL = Launcher.getClass.getClassLoader.getResource("word.dat")
val lines: RDD[String] = sc.textFile(url.getPath)
lines
   .flatMap(_.split("\\s+"))
   .map(_ -> 1)
   .reduceByKey(_ + _)
   .top( 
3)(Ordering.by(o => o._2))
   .foreach(println)

takeOrdered

val url: URL = Launcher.getClass.getClassLoader.getResource("word.dat")
val lines: RDD[String] = sc.textFile(url.getPath)
lines
   .flatMap(_.split("\\s+"))
   .map(_ -> 1)
   .reduceByKey(_ + _)
   .takeOrdered(3)(Ordering.by(o => -o._2))
   .foreach(println)

二、FLINK

　　1）使用狀態計算

　　2）TreeMap

　　3）小頂堆

spark和flink中計算topN的方法

一、SPARK 　　其中top運算元呼叫的takeOrdered運算元，takeOrdered運算元底層使用的是優先佇列（BoundedPriorityQueue），首先進入的是mapPatition，然後使用reduce將每個分割槽資料進行合併

Python2和Python3中@abstractmethod使用方法

這篇文章主要介紹了Python2和Python3中@abstractmethod使用方法,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

使用Spark進行實時流計算的方法

Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流處理框架，使用了微批的形式來進行流處理。

閱讀程式碼：Spark 與 Flink 中的 RPC 實現

近日常有同學來問我如何閱讀程式碼，關於這個問題的一般性答案我特別提了一個問題並自問自答。出於提供一個實際的例子的考量，正好此前綜合地閱讀了 Spark 的 RPC 實現、Flink 基於 Akka 的 RPC 實現和 Actor Model

Vue.js中計算屬性和方法的區別

技術標籤：vue.js computed和methods 計算屬性是基於它們的響應式依賴進行快取的。方法不是基於響應式依賴。每修改相關響應式值時，呼叫方法將總會再次執行函式。當修改相關響應式值時，基於響應式依賴的值會隨之

從MySQL全庫備份中恢復某個庫和某張表的方法

在Mysqldump官方工具中，如何只恢復某個庫呢？全庫備份 [root@HE1 ~]# mysqldump -uroot -p --single-transaction -A --master-data=2 >dump.sql

pytorch中的卷積和池化計算方式詳解

TensorFlow裡面的padding只有兩個選項也就是valid和same pytorch裡面的padding麼有這兩個選項，它是數字0,1,2,3等等，預設是0

在Pytorch中計算卷積方法的區別詳解(conv2d的區別)

在二維矩陣間的運算： class torch.nn.Conv2d(in_channels,out_channels,kernel_size,stride=1,padding=0,dilation=1,groups=1,bias=True)

在python中計算ssim的方法（與Matlab結果一致）

如下程式碼可以計算輸入的兩張影象的結構相似度（SSIM），結果與matlab計算結果一致

python中@property和property函式常見使用方法示例

本文例項講述了python中@property和property函式常見使用方法。分享給大家供大家參考，具體如下：

Pytorch中accuracy和loss的計算知識點總結

這幾天關於accuracy和loss的計算有一些疑惑，原來是自己還沒有弄清楚。給出例項

python中sort和sorted排序的例項方法

Python list內建sort()方法用來排序，也可以用python內建的全域性sorted()方法來對可迭代的序列排序生成新的序列。

Java8中的LocalDateTime和Date一些時間操作方法

先記錄下jdk8之前的一些幫助方法判斷time是否在now的n天之內 /** * 判斷time是否在now的n天之內

flink中Time和window

一、Time （1）Even time 　　1、Event Time 是事件發生的時間，一般就是資料本身攜帶的時間。這個時間通常是在事件到達 Flink 之前就確定的，並且可以從每個事件中獲取到事件時間戳。

python中pandas庫中DataFrame對行和列的操作使用方法示例

用pandas中的DataFrame時選取行或列： import numpy as np import pandas as pd from pandas import Sereis,DataFrame

c#委託中的匿名方法和lambda表示式

一、一般委託方式 Func<int, int, int> AddMethodHander; public unName() { AddMethodHander += AddMethod;

Java8新特性之介面中的預設方法和靜態方法

寫在前面在Java8之前的版本中，介面中只能宣告常量和抽象方法，介面的實現類中必須實現介面中所有的抽象方法。而在Java8中，介面中可以宣告預設方法和靜態方法，本文，我們就一起探討下介面中的預設方法和靜態方法

C#中的虛方法和抽象方法的運用

今天在雲和學院學了很多，我這次只能先總結一下C#中的虛方法和抽象的運用。

淺談Vuex的this.$store.commit和在Vue專案中引用公共方法

1、在Vue專案中引用公共方法作為一個新人小白，在使用vue的過程中，難免會遇到很多的問題，比如某個方法在很多元件中都能用的上，如果在每個元件上都去引用一次的話，會比較麻煩，增加程式碼量。怎麼做比較好呢，話

淺談vue 元件中的setInterval方法和window的不同

vue元件中，this指向例項，【例項中重寫了setInterval等一整套方法】。所以，千萬不能和 window 下掛載的方法混用

spark和flink中計算topN的方法

相關推薦