Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

阿新 • • 發佈：2018-12-20

分組取Top N在日常需求中很多見：

每個班級分數前三名同學的名字以及分數
各省指標數量前三的市的名字

等等需求，主要思想就是在某一個分割槽（班級，省）中取出該分割槽Top N的資料

測試資料格式：

如上圖，欄位含義為，班級，學生姓名，分數

下面我們通過一個Demo來實現各班級分數前三的學生姓名以及分數

1、通過Spark core 實現：

//讀取測試資料儲存為rdd

val rddtext = sc.textFile("file:///C:/Users/chunyuhe/Desktop/test1.txt")

//將資料轉化為Row形式（為下面Spark SQL 生成臨時表用）

val rowrdd = rddtext.map(m => Row(m.split(" ")(0), m.split(" ")(1), m.split(" ")(2).toInt))
/**
* spark core 實現分組取topN
*/

val classrdd = rddtext.map(x => {

//取到各資料並賦值給變數

val classname = x.split(" ")(0)

val name = x.split(" ")(1)

val grade = x.split(" ")(2)

//生成一個便於計算的元組

(classname, (name, grade.toInt))

}).groupByKey

//根據key聚合分組得到

classrdd.foreach(x => println(x))

classrdd.map(m => {

val classname = m._1

//如上圖將各班級同學資訊轉化為Array陣列並且安裝成績進行降序排列取前三

val top3 = m._2.toArray.sortWith(_._2 > _._2).take(3)

(classname, top3)
}).foreach(m => {
println(m._1 + "班級的前3名的成績為")
m._2.foreach(x => {
println(x)
})

})

輸出結果為：

2、通過Spark sql 實現：

//隱式轉換

import spark.implicits._

import spark.sql

//生成資料表表結構

val schema = StructType(mutable.ArraySeq(
StructField("classname", StringType, true),
StructField("name", StringType, true),

StructField("grade", IntegerType, true)))

//將表結構和表資料組合生成表

val tablerow = spark.createDataFrame(rowrdd, schema)

//將生成的df轉換為一個表並且命名

tablerow.createTempView("testtable")
val tetrow = sql("select * from testtable")

//tetrow.show()

//運用Spark sql 開窗函式進行計算

PARTITION BY 為需要開窗欄位

ORDER BY 為需要排序欄位

val resultrow = sql("""
select a.classname,a.name,a.grade from (select classname,name,grade,row_number() OVER (PARTITION BY classname ORDER BY grade DESC) rank from testtable) as a where a.rank <= 3
""")

resultrow.show()

輸出結果：

本文結束，希望能幫到大家，也希望大家批評指正！

Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

分組取Top N在日常需求中很多見：每個班級分數前三名同學的名字以及分數各省指標數量前三的市的名字等等需求，主要思想就是在某一個分割槽（班級，省）中取出該分割槽Top N的資料測試資料格式：如上圖，欄位含義為，班級，學生姓名，分數下面我們通過一

Spark：Java實現分組取Top N

1、源資料如下，取出每班成績的前三名 class1 98 class2 90 class2 92 class1 96 class1 100 class2 89 class2 68 class1 81 class2 90 2.實現程式碼 package c

spark-core 和spark-sql的區別

轉自： http://www.cnblogs.com/zlslch/p/6685679.html Spark SQL構建在Spark Core之上，專門用來處理結構化資料(不僅僅是SQL)。即Spark SQL是Spark Core封裝而來的！　　Spark

[SQL]取每個使用者最近一條記錄（分組取Top n）

一直沒有時間寫分享，終於等到雙十一，任何需求都不準上，這才抽出時間整理一下蒐集了好幾天的SQL。需求：查出使用者最近一條登入記錄。(110w條）前提：預設時間和id都是遞增。（求時間最大->求id最大）第一種：select * from user_log

Hive多欄位分組取Top N且保留某列不相同記錄

　　一、問題背景　　1.先吐槽一下中國聯通自己的大資料開放能力平臺提供的計算叢集，Hive用的1.1，Spark用的1.5，Kafka0.8，我的天吶，原始的讓人抓狂，好多已經寫好的模型都要重寫...... 　　2.資料格式　　第一列是device_number，第

在Yarn上執行spark-shell和spark-sql命令列

spark-shell On Yarn 如果你已經有一個正常執行的Hadoop Yarn環境，那麼只需要下載相應版本的Spark，解壓之後做為Spark客戶端即可。需要配置Yarn的配置檔案目錄，export HADOOP_CONF_DIR=/etc/hadoop/conf &n

SparkSQL（二）spark-shell和spark-sql以及thriftserver&beeline訪問hive表

一、spark-shell 1.把hive的hive-site.xml複製到spark的conf下面 2.開啟spark-shell bin/spark-shell --master local[2] --jars /opt/datas/mysql-connector-

sql實現分組查詢

DROP TABLE IF EXISTS testor;CREATE TABLE testor (id int(11) NOT NULL,name varchar(255) DEFAULT NULL,crdate datetime DEF

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast總結

背景：需要在spark2.2.0更新broadcast中的內容，網上也搜尋了不少文章，都在講解spark streaming中如何更新，但沒有spark structured streaming更新broadcast的用法，於是就這幾天進行了反覆測試。經過了一下兩個測試：：Spark Streaming更

spark原理和spark與mapreduce的最大區別

參考文件:https://files.cnblogs.com/files/han-guang-xue/spark1.pdf 參考網址:https://www.cnblogs.com/wangrd/p/6232826.html 對於spark個人理解: 　　spark與mapreduce最

sql之分組取組內前幾條資料

一、對分組的記錄取前N條記錄：例如：取每組的前3條最大的記錄 1.用子查詢： SELECT * FROM tableName a WHERE (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>

【MySQL】多表查詢、分組求和、並對和排序、取top n

查漏補缺MySQL的相關知識 1. 有一個使用者資金流水錶（如上的sql程式碼），找出流水金額最多的前10個使用者： 2. 查詢分組後的最大值，最小值所在的整行記錄或者分組後的top n行的記錄。 3.TOP 1 4.TOP N

利用htmlunit和jsoup來實現爬取js的動態網頁實踐(執行js)

更新，這就尷尬了，這篇文章部落格閱讀文章最多，但是被踩得也最多。爬取思路：所謂動態，就是通過請求後臺，可以動態的改變相應的html頁面，頁面並不是一開始就全部展現出來的。大部分操作都是通過請求完成的，一次請求，一次返回。而在大多數網頁中請求往往都被開發者隱藏在了js程

SQL實現分組排序編號（rownumber+over的替代辦法）

今天看到論壇有人提問：按規律自動生成序號要實現的效果如下： 1、建表語句、插入資料： CREATE TABLE tb(pz NVARCHAR(10),jzyf DATE); INSERT IN

spark 提交任務方式（spark-yarn和spark-client）

yarn-cluster和yarn-client方式的區別： yarn-cluster的ApplicationMaster在任一一臺NodeManager上啟動，申請啟動的Executor反向註冊到AM所在的NodeManager，而yarn-client

【開源】使用.Net Core和GitHub Actions實現嗶哩嗶哩每日自動簽到、投幣、領取獎勵

![2233](https://i0.hdslb.com/bfs/article/ee7f266c8ecddf0827526a089b028451e75bb97a.jpg) [![GitHub Stars](https://img.shields.io/github/stars/RayWangQvQ

mysql學生成績排名,分組取前 N 條記錄

score表: CREATE TABLE `score` ( `student_id` int(10) DEFAULT NULL, `class_id` int(10) DEFAULT NULL, `score` int(5) DEFAULT

Atitit redis使用場合總結使用場景目錄 1.1. 3. Session 儲存 1 1、配置資料查詢 1 2. 排行榜應用，取TOP N操作 1 1.2. 1、查詢最

Atitit redis使用場合總結使用場景目錄 1.1. 3. Session 儲存 1 1、配置資料查詢 1 2. 排行榜應用，取TOP N操作 1 1.2. 1

Spark core分組取topN案例

描述：在HDFS上有訂單資料order.txt檔案，檔案欄位的分割符號","，樣本資料如下：其中欄位依次表示訂單id，商品id，交易額問題：使用sparkcore，求每個訂單中成交額最大的商品id 程式碼如下： package com.company.sparkc

spark學習記錄（七、二次排序和分組取TopN問題）

1.二次排序例題：將兩列數字按第一列升序，如果第一列相同，則第二列升序排列資料檔案：https://download.csdn.net/download/qq_33283652/10894807 將資料封裝成物件，對物件進行排序，然後取出value public class Se

Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

相關推薦