spark-二次排序

阿新 • • 發佈：2020-12-26

排序檔案：

3,2
5,2
5,3
5,9
6,2
9,1
9,3
8,4

方法一：

 1 package spark.rdd
 2 
 3 import org.apache.spark.rdd.RDD
 4 import org.apache.spark.{SparkConf, SparkContext}
 5 
 6 class SecondarySortByKey(val first:Int, val second:Int) extends Ordered[SecondarySortByKey] with Serializable{
 7   override def compare(that: SecondarySortByKey): Int = {
 
 8     if(this.first-that.first != 0){
 9       this.first - that.first
10     } else {
11       this.second - that.second
12     }
13   }
14 }
15 object SecondarySortApp {
16   // 第一列升序，第二列降序，巧妙使用List的預設排序方法
17   def main(args: Array[String]): Unit = {
18     val conf = new SparkConf().setAppName("SortByKey").setMaster("local[*]")
 
19     val sc = new SparkContext(conf)
20     sc.setLogLevel("ERROR")
21     val data = sc.textFile("/test/file/secondarySort.txt")
22     val lines = data.map(line => (new SecondarySortByKey(line.split(",")(0).toInt,line.split(",")(1).toInt),line))
23     val sorted = lines.sortByKey(true)
24     sorted.map(line => line._2).collect().foreach(println(_))
 
25   }
26 
27 
28 }

第二種方法：

 1 def main(args: Array[String]): Unit = {
 2   val conf = new SparkConf().setAppName("SortByKey").setMaster("local[*]")
 3   val sc = new SparkContext(conf)
 4   sc.setLogLevel("ERROR")
 5   val data = sc.textFile("/test/file/secondarySort.txt",1)
 6   //第一個列升序
 7   val value: RDD[(String, String)] = data.coalesce(1,false).map(line => (line, line)).sortByKey(true)
 8   val value1: RDD[(String, List[String])] = data.map(line => (line.split(",")(0), line)).groupByKey(1).sortByKey(true).map(line => (line._1, line._2.toList.sortWith(_.compareTo(_) > 0)))
 9   value1.map(_._2).flatMap(_.mkString("@").split("@")).foreach(println)
10 }

注意：預設分割槽產生的影響。

spark-二次排序

排序檔案： 3,25,25,35,96,29,19,38,4方法一： 1 package spark.rdd 2 3 import org.apache.spark.rdd.RDD

MapReduce之GroupingComparator分組（輔助排序、二次排序）

指對Reduce階段的資料根據某一個或幾個欄位進行分組。案例需求有如下訂單資料

hadoop分割槽二次排序示例

1、實驗要求：對基站資料進行排序，要求按電話號碼升序，到達時間降序進行排序。

hadoop實現資料的二次排序

需求：對業務資料根據上行流量和上行總流量做一個排序處理，上行流量升序，上行流量相同的上行總流量升序

Mapreduce例項——二次排序

在電商網站中，使用者進入頁面瀏覽商品時會產生訪問日誌，記錄使用者對商品的訪問情況，現有goods_visit2表，包含（goods_id,click_num）兩個欄位，資料內容如下：

07．Mapreduce例項——二次排序

07．Mapreduce例項——二次排序實驗原理在Map階段，使用job.setInputFormatClass定義的InputFormat將輸入的資料集分割成小資料塊splites，同時InputFormat提供一個RecordReder的實現。本實驗中使用的是TextInputF

Solr reRankQuery加自定義函式實現搜尋二次排序

原來的賬號提示我密碼太簡單，需要重置，重置需要郵箱，但是我想不起當年註冊的郵箱是啥了，重新註冊一個，把內容搬過來。

Hadoop MapReduce 二次排序原理及其應用

關於二次排序主要涉及到這麼幾個東西：在0.20.0 以前使用的是 setPartitionerClass

基於python+selenium的二次封裝的實現

這是個人對selenium.webdriver寫的一些常用操作的二次封裝，也就相當於重寫了，不再使用自帶的框架，用自己寫的框架完成。這樣的話使程式碼更簡潔，用自己的思想完成程式碼的編寫。

Python二次規劃和線性規劃使用例項

這篇文章主要介紹了Python二次規劃和線性規劃使用例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Flutter Dio二次封裝的實現

目錄： DioManager：Dio輔助類NWMethod：請求方法，get、post等 NWApi：大家都知道 EntityFactory：json轉換輔助工廠，把json轉為T

使用python求解二次規劃的問題

Python中支援Convex Optimization（凸規劃）的模組為CVXOPT,其安裝方式為： pip install cvxopt

【Selenium學習】WebDriverApi介面和二次開發

WebDriverApi介面詳解瀏覽器操作 1 driver.back()# 後退 2 driver.forward()# 前進 3 driver.refresh()# 重新整理

基於Python的Jenkins的二次開發操作

背景最近我們在整一個雲執行的平臺，底層用的是Jenkins來做執行引擎，方便的把我們的指令碼做一個統一的排程。

Spark處理資料排序問題如何避免OOM

錯誤思想舉個列子，當我們想要比較一個型別為 RDD[(Long,(String,Int))] 的RDD，讓它先按Long分組，然後按int的值進行倒序排序，最容易想到的思維就是先分組，然後把Iterable 轉換為 list，然後sortby,但是這樣卻

python 用 matplotlib 在 3D 空間繪製二次拋物面例項詳解

1、開口向上的拋物面 fig = plt.figure(figsize=(9,6), facecolor=\'khaki\' ) ax = fig.gca(projection=\'3d\')

微信公眾號二次分享ios分享失敗問題

一、首先，看正常通用的 1、繫結域名　　再公眾號開發設定裡邊配置域名 2、引入js檔案

【pyqt5&QMessageBox】訊息框，警告框、二次確認框的用法

一、QMessageBox訊息框有以下幾種型別： QMessageBox.information資訊框QMessageBox.question問答框QMessageBox.warning警告QMessageBox.ctitical危險QMessageBox.about關於

Disruptor 高效能併發框架二次封裝

Disruptor是一款java高效能無鎖併發處理框架。和JDK中的BlockingQueue有相似處，但是它的處理速度非常快！！！號稱“一個執行緒一秒鐘可以處理600W個訂單”（反正渣渣電腦是沒體會到）。

二次剩餘

簡介二次剩餘是為了解決 \\(x^2\\equiv n (mode\\ p)\\) ，已知 \\(n，p\\) ，求解 \\(x\\)。

spark-二次排序

相關推薦