Spark 使用sortByKey進行二次排序

阿新 • • 發佈：2019-02-01

Spark的sortByKey API允許自定義排序規則，這樣就可以進行自定義的二次排序、三次排序等等。
先來看一下sortByKey的原始碼實現：

def sortByKey(): JavaPairRDD[K, V] = sortByKey(true)

def sortByKey(ascending: Boolean): JavaPairRDD[K, V] = {
    val comp = com.google.common.collect.Ordering.natural().asInstanceOf[Comparator[K]]
    sortByKey(comp, ascending)
}

def 
 sortByKey(comp: Comparator[K], ascending: Boolean): JavaPairRDD[K, V] = {
    implicit val ordering = comp // Allow implicit conversion of Comparator to Ordering.
    fromRDD(new OrderedRDDFunctions[K, V, (K, V)](rdd).sortByKey(ascending))
}

class OrderedRDDFunctions[K : Ordering : ClassTag,
                          V: ClassTag,
                          P <: Product2[K, V] : ClassTag] @DeveloperApi 
() (
    self: RDD[P])
  extends Logging with Serializable

通過程式碼我們可以發現要實現自定義的二次排序，則Key必須實現Spark 的Ordered特質和Java的Serializable介面。

Java實現：
首先是Key類的自定義實現：

import scala.math.Ordered;

import java.io.Serializable;

/**
 * Key的自定義
 * Created by Administrator on 2016/8/14 0014.
 */
public class SecondarySortKey 
 implements Ordered<SecondarySort>, Serializable {
    public int getFirst() {
        return first;
    }

    public int getSecond() {
        return second;
    }

    public void setFirst(int first) {
        this.first = first;
    }

    public void setSecond(int second) {
        this.second = second;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;

        SecondarySort that = (SecondarySort) o;

        if (first != that.first) return false;
        return second == that.second;

    }

    @Override
    public int hashCode() {
        int result = first;
        result = 31 * result + second;
        return result;
    }

    // 需要排序的key
    private int first;
    private int second;

    // 二次排序的公開構造器
    public SecondarySortKey(int first, int second) {
        this.first = first;
        this.second = second;
    }

    @Override
    public int compare(SecondarySort other) {
        if (this.$greater(other)) {
            return 1;
        }
        else if (this.$less(other)) {
            return -1;
        }
        return 0;
    }

    @Override
    public boolean $less(SecondarySort other) {
        if (this.first < other.first) {
            return true;
        }
        else if (this.first == other.first && this.second < other.second) {
            return true;
        }
        return false;
    }

    @Override
    public boolean $greater(SecondarySort other) {
        if (this.first > other.first) {
            return true;
        }
        else if (this.first == other.first && this.second > other.first) {
            return true;
        }
        return false;
    }

    @Override
    public boolean $less$eq(SecondarySort other) {
        if (this.$less(other)) {
            return true;
        }
        else if (this.first == other.first && this.second == other.second) {
            return true;
        }
        return false;
    }

    @Override
    public boolean $greater$eq(SecondarySort other) {
        if (this.$greater(other)) {
            return true;
        }
        else if (this.first == other.first && this.second == other.second) {
            return true;
        }
        return false;
    }

    @Override
    public int compareTo(SecondarySort other) {
        if (this.$greater(other)) {
            return 1;
        }
        else if (this.$less(other)) {
            return -1;
        }
        return 0;
    }
}

二次排序：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;

/**
 * Created by Administrator on 2016/8/14 0014.
 */
public class SecondarySortApp {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("SecondarySortApp").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> lines = sc.textFile("/home/resources/helloSpark.txt");
        JavaPairRDD<SecondarySort, String> pairs = lines.mapToPair(new PairFunction<String, SecondarySort, String>() {
            @Override
            public Tuple2<SecondarySort, String> call(String line) throws Exception {
                String[] splited = line.split(" ");
                SecondarySort key = new SecondarySort(Integer.valueOf(splited[0]), Integer.valueOf(splited[1]));

                return new Tuple2<SecondarySort, String>(key, line);
            }
        });

        JavaPairRDD<SecondarySort, String> sorted = pairs.sortByKey();  // 完成二次排序
        JavaRDD<String> result = sorted.map(new Function<Tuple2<SecondarySort,String>, String>() {
            @Override
            public String call(Tuple2<SecondarySort, String> v1) throws Exception {
                return v1._2;
            }
        });

        for (String s : result.collect()) {
            System.out.println(s);
        }

        sc.stop();
    }
}

Scala 版本實現
Key:

package com.spark.App

/**
  * Created by Administrator on 2016/8/14 0014.
  */
class SecondarySortKey(val first: Int, val second: Int) extends Ordered[SecondarySortKey] with Serializable {
  override def compare(other: SecondarySortKey): Int = {
    if (this.first > other.first || (this.first == other.first && this.second > other.second)) {
      return 1;
    }
    else if (this.first < other.first || (this.first == other.first && this.second < other.second)) {
      return -1;
    }
    return 0;
  }
}

二次排序：

package com.spark.App

import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Administrator on 2016/8/14 0014.
  */
object SecondarySortApp {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("SecondarySortApp").setMaster("local")
    val sc = new SparkContext(conf)

    val lines = sc.textFile("/home/resources/helloSpark.txt")

    val pairRDD = lines.map(line => {
      val splited = line.split(" ")
      val key = new SecondarySortKey(splited(0).toInt, splited(1).toInt)
      (key, line)
    })

    val sorted = pairRDD.sortByKey(false)
    val result = sorted.map(item => item._2)
    result.collect().foreach(println)
  }
}

Spark 使用sortByKey進行二次排序

Spark的sortByKey API允許自定義排序規則，這樣就可以進行自定義的二次排序、三次排序等等。先來看一下sortByKey的原始碼實現： def sortByKey(): JavaPairRDD[K, V] = sortByKey(true)

Hadoop和Spark分別實現二次排序

將下列資料中每個分割槽中的第一列順序排列，第二列倒序排列。 Text 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 2021 5051

Spark:Java實現二次排序

測試資料 1 5 2 4 3 6 1 3 2 1 輸出結果 1 3 1 5 2 1 2 4 3 6 實現思路： 1.實現自定義的key，要實現Ordered介面和Serializable介面，在key中實現自己對多個列的排序演算法 2.將包含文

第三天 -- Spark shuffle -- DAG -- 廣播變數 -- 二次排序

第三天 – Spark shuffle – DAG – 廣播變數 – 二次排序文章目錄第三天 -- Spark shuffle -- DAG -- 廣播變數 -- 二次排序一、Spark shuffle

Spark：高階排序（二次排序）

為了多維的排序，需要考慮多個條件，這要求我們自定義key 1 23 3 22 3 31 1 12 2 11 4 45 二、使用java實現 2.1、自定義key 使用scala.math.Ordered介面,實現Serializable介面 package com.

Spark的高階排序（二次排序）

為了多維的排序，需要考慮多個條件，這要求我們自定義key 1 23 3 22 3 31 1 12 2 11 4 45 二、使用java實現 2.1、自定義key 使用scala.math.Ordered介面,實現Serializable介

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（一）——二次排序

寫在前面：在做直播的時候有同學問Spark不是用Scala語言作為開發語言麼，的確是的，從網上查資料的話也會看到大把大把的用Scala編寫的Spark程式，但是仔細看就會發現這些用Scala寫的文章

spark學習記錄（七、二次排序和分組取TopN問題）

1.二次排序例題：將兩列數字按第一列升序，如果第一列相同，則第二列升序排列資料檔案：https://download.csdn.net/download/qq_33283652/10894807 將資料封裝成物件，對物件進行排序，然後取出value public class Se

Spark 二次排序自定義key 實現(Java)

楔子 spark java版本的二次排序實現資料如下 2::4 2::10 3::6 1::5 按照第一列和第二列倒敘排列實現如下的結果 3::6 2::10 2::4 1::5 demo GitHub 位置的 Second

spark二次排序到多次排序

資料示例：1 5 6 91 5 6 71 5 6 82 4 7 53 6 3 31 5 3 31 5 2 42 4 3 7實現需求：先按第一列排序，若第一列相同按照第二列排序，依次類推scals實現：class SeveralSortKey(val arr:Array[Str

Spark分組二次排序

package com.ibeifeng.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBu

Spark二次排序

Spark當中做二次排序非常簡單，因為有大量的現成函式已經實現了，只需要進行組合運用就好在這裡進行一下二次排序的總結如果對兩列或多列同時進行升序或降序排序的話比較容易實現初始資料 1.兩次升序

分別使用Hadoop和Spark實現二次排序

零、序（注意本部分與標題無太大關係，可直接翻到第一部分）　　既然沒用為啥會有序？原因不想再開一篇文章，來抒發點什麼感想或者計劃了，就在這裡寫點好了：　　前些日子買了幾本書，打算學習和研究大資料方面的知識，一直因為實習、考試、畢業設計等問題搞得沒有時間，現在進入了寒

Spark實現二次排序

1、HDFS檔案說明檔案為普通的文字檔案，無壓縮，\001分割，共3列，一次為province_id,city_id,city_uv需要按照province_id升序，city_uv降序操作2、程式碼var data = sc.textFile("/home/hdfs/te

Eureka源碼分析：Eureka不會進行二次Replication的原因

實例 .get 新版 replica ide 倉庫 efault springmvc XML Eureka不會進行二次同步註冊信息 Eureka會將本實例中的註冊信息同步到它的peer節點上，這是我們都知道的特性。然而，當peer節點收到同步數據後，並不會將這些信息再同步

mysql 在查詢結果中進行二次查詢

sele info from card eight bsp 大於 emp mysq 第一次查詢：查詢身份證編號和出現次數 select cardid,count(cardid) as total from p_person_info group by cardid 在第

MapReduce程序之二次排序與多次排序

大數據 Hadoop MapReduce Java [toc] MapReduce程序之二次排序與多次排序需求有下面的數據： cookieId time url 2 12:12:34 2_hao123 3 09:10:34 3_baidu 1 15:0

mapreduce 的二次排序

大數據 hadoop 二次排序 mapreduce 一：理解二次排序的功能，使用自己理解的方式表達（包括自定義數據類型，分區，分組，排序）二：編寫實現二次排序功能，提供源碼文件。三：理解mapreduce join 的幾種方式，編碼實現reduce join，提供源代碼，說出

大數據技術之輔助排序和二次排序案例（GroupingComparator）

group http pac ppr instance div lec tex boolean 大數據技術之輔助排序和二次排序案例（GroupingComparator） 1）需求有如下訂單數據訂單id 商品id 成交金額

將Java中的陣列進行二次封裝成屬於我們自己的陣列

我們來簡略回顧一下Java陣列的基礎概念：陣列最大的優點是可以快速查詢，因為陣列直接通過索引查詢很快：array[2]。其資料結構是簡單的線性序列，這使得元素訪問非常快速，並且按照索引遍歷陣列方便陣列最好應用於“索引有語意”的情況但並非所有有語意的索引都適用於陣列，例如索引是×××號這種

Spark 使用sortByKey進行二次排序

相關推薦