spark：聚合函式填坑記之first

阿新 • • 發佈：2019-01-03

我們有一張表：

val df = spark.createDataset(Seq(
            (1, "a", 66),
            (2, "a", 22),
            (3, "a", 11),
            (4, "b", 22),
            (5, "b", 66),
            (6, "b", 11))).toDF("a", "b", "c")
df.show
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  a| 66|
|  2|  a| 22|
|  3 
|  a| 11|
|  4|  b| 22|
|  5|  b| 66|
|  6|  b| 11|
+---+---+---+

我們想要根據b列分組，然後聚合求出sum(c)、max(c)、max(c)所對應的a的值：

df.orderBy(desc("c"))
            .groupBy("b")
            .agg(sum("c"), max("c"), first("a"))
            .show
+---+------+------+---------------+
|  b|sum(c)|max(c)|first(a, false 
)|
+---+------+------+---------------+
|  b|    99|    66|              4|
|  a|    99|    66|              2|
+---+------+------+---------------+

觀察發現最後一列不對啊！然後多執行幾次，觀察結果：

+---+------+------+---------------+
|  b|sum(c)|max(c)|first(a, false)|
+---+------+------+---------------+
|  b|    99|    66 
|              5|
|  a|    99|    66|              2|
+---+------+------+---------------+
+---+------+------+---------------+
|  b|sum(c)|max(c)|first(a, false)|
+---+------+------+---------------+
|  b|    99|    66|              6|
|  a|    99|    66|              2|
+---+------+------+---------------+
+---+------+------+---------------+
|  b|sum(c)|max(c)|first(a, false)|
+---+------+------+---------------+
|  b|    99|    66|              4|
|  a|    99|    66|              1|
+---+------+------+---------------+

first函式返回的結果並不是固定的！我們檢視原始碼裡的文件發現：

/**
* Returns the first value of child for a group of rows. If the first value of child
* is null, it returns null (respecting nulls). Even if [[First]] is used on an already
* sorted column, if we do partial aggregation and final aggregation (when mergeExpression
* is used) its result will not be deterministic (unless the input table is sorted and has
* a single partition, and we use a single reducer to do the aggregation.).
*/

原來對排序後的Dataset使用first函式獲得的結果是不確定的（除非這個Dataset只有一個partition且只用一個reducer進行的聚合！）。

我們看一下df分割槽數量：

df.rdd.getNumPartitions
res9: Int = 6  //果然並非單一分割槽

知道了原因，那就改造程式，合併分割槽再試：

df.coalesce(1).orderBy(desc("c"))
            .groupBy("b")
            .agg(sum("c"), max("c"), first("a"))
            .show
+---+------+------+---------------+
|  b|sum(c)|max(c)|first(a, false)|
+---+------+------+---------------+
|  a|    99|    66|              1|
|  b|    99|    66|              5|
+---+------+------+---------------+

這次結果沒問題了。

類似的情況還有聚合函式last。

當資料量大的時候，使用合併分割槽的方式解決上面的問題顯然不是最好的，我們也可以用join聚合的方式實現同樣功能：

val df = spark.createDataset(Seq(
    (1, "a", 77),
    (2, "a", 22),
    (3, "a", 11),
    (4, "b", 22),
    (5, "b", 77),
    (6, "b", 77))).toDF("a", "b", "c")
df.show
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  a| 77|
|  2|  a| 22|
|  3|  a| 11|
|  4|  b| 22|
|  5|  b| 77|
|  6|  b| 77|
+---+---+---+

val df1 = df.dropDuplicates("b", "c").withColumnRenamed("c", "max")
df.groupBy("b")
    .agg(sum("c").as("sum"), max("c").as("max"))
    .join(df1, Seq("b", "max"), "left")
    .show
+---+---+---+---+
|  b|max|sum|  a|
+---+---+---+---+
|  b| 77|176|  6|
|  a| 77|110|  1|
+---+---+---+---+

當然我們也可以使用sql語句的分窗函式實現同樣功能，這裡就不舉例了。

spark：聚合函式填坑記之first

我們有一張表： val df = spark.createDataset(Seq( (1, "a", 66), (2, "a", 22), (3, "a", 11),

支付開發填坑記之微信支付

wiki index 傳輸系統外網 ttr throw div union 微信支付，支持的支付方式比較多：有掃碼支付，刷卡支付，APP支付和公眾號支付。其中，APP和網站上最常用的就是APP支付和公眾號支付。前者集成在APP中，後者主要是為微信用戶提供了另一種支付方式

技巧：Ubuntu踩坑記之網絡配置哪裏找

改變 .com 方式 alt style man 情況 -c file 今天在虛擬機中遇到一個關於網絡配置的坑，在此記錄下來。我們都知道虛擬機系統（此處指的是vmware）中，虛擬網絡主要由三個方式實現：橋接網絡 NAT轉換主機共享網絡在這三種方式

UiAutomator2.0升級填坑記

新建意思原來也有 sha ogl selector 輸入文字 apk UiAutomator2.0升級填坑記 SkySeraph May. 28th 2017 Email：[email protected]/* */ 更多精彩請直接訪問SkyS

Ueditor在上傳圖片時，服務器返回502 bad gateway的填坑記

ueditor 502 iconv故事發生在2017.10.26下午，環宇同學跟我反應說在測試青羊雙創項目的後臺管理，發現在編輯園區信息時，想要上傳一堆圖片，用編輯器嘗試上傳圖片時，卻報了“上傳失敗，請重試”的錯，類似下圖：納尼？我...... 多麽正常的編輯器，我本地跑的好好的，我趕緊去試了一下，果然報錯，

三、VueJs 填坑日記之項目文件認識

統一技術分享 module 依賴工作情況下 png package bpa 上一篇博文，我們搭建了一套基礎的vuejs的環境，首先安裝node.js，然後利用npm包管理器，安裝vue-cli，設置淘寶鏡像，初始化項目，安裝依賴，運行。在這一篇，我們將認識vuejs項

十一、VueJs 填坑日記之使用Amaze ui調整列表和內容頁面

port article lap idt body 設置 eight get nod 上一篇博文我們整合了Amaze ui，並且調整了一個頭部header和底部footer文件，其實做起來也很簡單，只要按照步驟來做，完全沒有問題。今天我們來重新調整一下列表頁面和內容頁面，使

環境配置（近期實測）——Ubuntu16.04+CUDA9.0+tensorflow-gpu填坑記

u盤 earch 實測 win 1.3 ted 等待 gef kernel 近幾年深度學習在物體檢測方面出現了許多基於不同框架的網絡模型，不同模型需要不同的版本的Python、TensorFlow、Keras、CUDA、cuDNN以及操作系統。不得不說，要把經典物體檢測網絡

GitLab 容器化 CI 流程填坑記（一）

本文以SpringBoot專案的部署構建為例，對基於GItLab的CI流程進行簡要介紹。環境準備： 1. 系統環境：作業系統：CentOS 7.2 1511 GitLab：v11.1.4 GitLab-runner：v11.2.0 Docker：17.0

vue填坑指南之模板的使用

　　　　坑提示："The template root requires exactly one element" 　　　　Src下面有個App.vue檔案，在index裡引用了這個檔案以後，我在.vue檔案裡添加了html，但是加完一個div以後，再加div就沒效果了，百思不得其解。　　　　　　　　

Appium 學習三：Appium-Desktop 填坑

之前使用appium執行自動化指令碼，現使用appium-desktop 遇到了一些問題 1、使用name定位的報錯 Locator Strategy 'name' is not supported for this session 如下圖：原因： appium

柯里化箭頭函式埋坑記

今天寫了個累加的柯里化函式如下: function add(){ let that = this; let arrs = Array.prototype.slice.call(arguments) function fn(){ return

ActiveMQ 填坑記

Mysql 持久化現在大家使用MQ，基本都是會把資料進行持久化，MQ預設儲存持久化資料使用kahaDB，但是鑑於大家對mysql比較熟悉，很多人會選擇mysql進行資料的持久化，因為mysql檢視資料還是比較方便的。如果需要把持久化方式改為mysql，則需要修改如下配置： <persistenc

php curl返回false填坑記-curl呼叫微信建立自定義選單返回false

首先宣告一點，這個錯誤可能在你的開發生涯中不會遇到，除非你直接複製了微信公眾平臺的api地址。不過這應該算是php中curl擴充套件的一個bug，為什麼是bug呢？讓我們仔細來看。下邊是示例程式碼，程式碼的功能是呼叫微信公眾平臺的建立自定義選單介面來建立自定義選單。建

Adobe CMS 扒坑記之始

AEM是Adobe公司所出的商業內容管理系統，全稱阿豆比體驗管理系統(Adobe Experience Manager)，其前身叫CQ，分別有CQ5 CQ6兩個大版本。它提供了整套的網站內容管理系統解決方案，是一個企業級的重型系統。當然，這套系統在中國幾乎沒什麼人知曉。但在澳洲，這系統幾乎在所有金融行業遍地開

淺談html5 video 移動端填坑記

本文介紹了html5 video 移動端填坑記，分享給大家，具體如下：?12345678910111213141516171819202122232425262728<video id="video"style="object-fit:fill"autoplaywebk

round()函式填坑

round()函式有兩個引數，第一個是浮點數，第二個是保留的小數位。採用四捨五入。 1.round的結果和python版本有關。 python2中如果浮點數距離兩端一樣遠，則保留到離0遠的一邊。所以round(0.5)會近似到1，而round(-0.5)會近似到-1。 py

vue + Echarts 填坑記（Echarts資料量大，導致瀏覽器卡頓）

最近使用vue + Echarts 實現vue專案的資料視覺化功能的時候，發現隨著元件的增多，元件裡Echarts繪圖的增多，頁面操作越來越卡頓，點選資料比較大的元件時，Echarts繪圖渲染頁面的速度倒是挺快，但是當我點選切換其他元件統計圖時，出現了讓人難以忍受的卡頓，有

MongoDB4：聚合函式group和mapReduce

1.group測試：db.order.insert({id:123,mount:500}) yooo:PRIMARY> db.order.find() { "_id" : ObjectId("5b

微信支付開發填坑日常之支付祕鑰絕對路徑問題

如果你使用了微信的官方SDK，那我想其實你很容易發現這個問題在微信官方PHPSDK中WxPay.Api.php這個檔案中，微信支付祕鑰這裡的路徑寫的是相對路徑這樣這樣點開路徑之後我們看到的是這樣這樣：然而我們在生產環境的時候，微信要求這個路徑為絕對路徑，所以我們需要對Wx

spark：聚合函式填坑記之first

相關推薦