Spark-分組TOPN演算法

阿新 • • 發佈：2019-01-10

該資料集都為：“http://bigdata.edu360.cn/laozhou” 這個樣子，需求是找到每個學科下最受歡迎的老師
方法一：

/**
  * 資料放到scala 集合裡面進行操作
  */
object GroupFavTeacher_1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("FavTeacher").setMaster("local")
    val sc = new SparkContext(conf)
    //指定以後從哪裡讀取資料
    val lines = sc.textFile(args(0))
    //整理資料
    val subject_teacherAndOne = lines.map(line => {
      //val line = "http://bigdata.edu360.cn/laoyu"
      val conSubject = line.split("/")(2)
      val subject =conSubject.split("[.]")(0)
      val teacher = line.split("/")(3)
      ((subject, teacher),1)
    })
    //聚合,將學科和老師聯合當做key
    val reduced: RDD[((String,String), Int)] = subject_teacherAndOne.reduceByKey(_+_)
    //分組排序（按學科進行分組）
    val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduced.groupBy(_._1._1)
    //經過分組後，一個分割槽內可能有多個學科的資料，一個學科就是一個迭代器
    //將每一個組拿出來進行操作v
    //為什麼可以呼叫sacla的sortby方法呢？因為一個學科的資料已經在一個scala集合裡面了
    val sorted = grouped.mapValues(_.toList.sortBy(_._2).reverse.take(3))
    val resulted = sorted.collect()
    //收集
    println(resulted.toBuffer)
    sc.stop()
  }
}

方法二：

/**
  * 先過濾再統計計算
  */
object GroupFavTeacher_2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("GroupFavTeacher_2").setMaster("local")
    val sc = new SparkContext(conf)
    //val topN = args(1).toInt
    val subjects = Array("bigdata", "javaee", "php")
    //指定以後從哪裡讀取資料
    val lines = sc.textFile(args(0))
    //整理資料
    val subject_teacherAndOne = lines.map(line => {
      //val line = "http://bigdata.edu360.cn/laozhang"
      val conSubject = line.split("/")(2)
      val subject =conSubject.split("[.]")(0)
      val teacher = line.split("/")(3)
      ((subject, teacher),1)
    })
    //聚合,將學科和老師聯合當做key
    val reduced: RDD[((String,String), Int)] = subject_teacherAndOne.reduceByKey(_+_)
    //分組排序（按學科進行分組）
    val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduced.groupBy(_._1._1)

    //scala的集合排序是在記憶體中進行的，但是記憶體有可能不夠用
    //可以呼叫RDD的sortby方法，記憶體+磁碟進行排序
    for(sb <- subjects) {
      //該RDD中對應的資料僅有一個學科的資料（因為過濾過了）
      val filted = grouped.filter(_._1 == sb)
      //現在呼叫的是RDD的sortBy方法，(take是一個action，會觸發任務提交)
      val filtedResulted = filted.sortBy(_._2, false).take(3)
      println(filtedResulted.toBuffer)
    }
    sc.stop()
  }
}

方法三：

/**
*自定義分割槽器(k,v)
*
/
object GroupFavTeacher3 {

  def main(args: Array[String]): Unit = {

    val topN = args(1).toInt

    val conf = new SparkConf().setAppName("GroupFavTeacher2").setMaster("local[4]")
    val sc = new SparkContext(conf)

    //指定以後從哪裡讀取資料
    val lines: RDD[String] = sc.textFile(args(0))
    //整理資料
    val sbjectTeacherAndOne: RDD[((String, String), Int)] = lines.map(line => {
      val index = line.lastIndexOf("/")
      val teacher = line.substring(index + 1)
      val httpHost = line.substring(0, index)
      val subject = new URL(httpHost).getHost.split("[.]")(0)
      ((subject, teacher), 1)
    })

    //聚合，將學科和老師聯合當做key
    val reduced: RDD[((String, String), Int)] = sbjectTeacherAndOne.reduceByKey(_+_)

    //計算有多少學科
    val subjects: Array[String] = reduced.map(_._1._1).distinct().collect()

    //自定義一個分割槽器，並且按照指定的分割槽器進行分割槽
    val sbPatitioner = new SubjectParitioner(subjects);

    //partitionBy按照指定的分割槽規則進行分割槽
    //呼叫partitionBy時RDD的Key是(String, String)
    val partitioned: RDD[((String, String), Int)] = reduced.partitionBy(sbPatitioner)

    //一次拿出一個分割槽(可以操作一個分割槽中的資料了)
    val sorted: RDD[((String, String), Int)] = partitioned.mapPartitions(it => {
      //將迭代器轉換成list，然後排序，在轉換成迭代器返回
      it.toList.sortBy(_._2).reverse.take(topN).iterator
    })

    //
    val r: Array[((String, String), Int)] = sorted.collect()
    println(r.toBuffer)
    sc.stop()
  }
}

//自定義分割槽器
//思想就是把每一種給一個編號，每一個編號下的分割槽都是該學科的資料
class SubjectParitioner(sbs: Array[String]) extends Partitioner {

  //相當於主構造器（new的時候會執行一次）
  //用於存放規則的一個map
  val rules = new mutable.HashMap[String, Int]()
  var i = 0
  for(sb <- sbs) {
    //rules(sb) = i
    rules.put(sb, i)
    i += 1
  }

  //返回分割槽的數量（下一個RDD有多少分割槽）
  override def numPartitions: Int = sbs.length

  //根據傳入的key計算分割槽標號
  //key是一個元組（String， String）
  override def getPartition(key: Any): Int = {
    //獲取學科名稱
    val subject = key.asInstanceOf[(String, String)]._1
    //根據規則計算分割槽編號
    rules(subject)
  }
}

Spark-分組TOPN演算法

該資料集都為：“http://bigdata.edu360.cn/laozhou” 這個樣子，需求是找到每個學科下最受歡迎的老師方法一： /** * 資料放到scala 集合裡面進行操作 */ object GroupFavTeacher_1 { def main(args

Spark-分組TOPN演算法：

該資料集都為：“http://bigdata.edu360.cn/laozhou” 這個樣子，要求的就是最受歡迎的老師分組TOPN演算法： object FavTeacher { def main(args: Array[String]): Unit = { val con

spark分組取topN

準備資料： aa 11 bb 11 cc 34 aa 22 bb 67 cc 29 aa 36 bb 33 cc 30 aa 42 bb 44 cc 49 import org.apache.spark.{SparkConf, SparkContext} /** * @author

大資料實戰：基於Spark SQL統計分析函式求分組TopN

做大資料分析時，經常遇到求分組TopN的問題，如：求每一學科成績前5的學生；求今日頭條各個領域指數Top 30%的頭條號等等。Spark SQL提供了四個排名相關的統計分析函式： dense_rank() 返回分割槽內每一行的排名，排名是連續的。 rank() 返回分割槽

Java實現GroupBy/分組TopN功能

tostring .com 定義排序 ati char 內排序 tex nta 介紹在Java 8 的Lambda（stream）之前，要在Java代碼中實現類似SQL中的group by分組聚合功能，還是比較困難的。這之前Java對函數式編程支持不是很好，Scala則

使用Spark mlib Kmean演算法分析網路資料(Hacker attack)

package apache.spark.mlib.rdd.kmeanclustering import org.apache.spark.ml.clustering.KMeans import org.apache.spark.ml.feature.{StandardSca

hive 分組topN

select id,sex,age,hobby from t1 group by sex order by age row_number() over (partition by sex order by age asc) as od; select * from t_tmp where o

密碼庫LibTomCrypt學習記錄——（2.3）分組密碼演算法的工作模式——ECB程式碼示例

以下程式碼實現了AES-ECB的正確性測試（標準測試資料），以及效能測試說明： 1. 程式碼裡面使用了一個Str2Num函式，它將測試向量中的字串轉為十六進位制位元組資料，可自行實現。 2. 測試向量出處為NIST SP 800-38A (Recommendation for Bloc

Spark隨機森林演算法實踐

例子1 object RunRF { def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName(

分組密碼演算法AES-128,192,256 C語言實現第一版

AES的C語言實現入門版 AES分組密碼演算法中明文分組位128bits，金鑰分組可以為128,192,256bits。AES也是由最基本的變換單位——“輪”多次迭代而成的。我們將 AES 中的輪變換計為 Round(State, RoundKey)，State 表示訊息矩陣；Roun

SparkCore（13）：TopN演算法

1.實現功能針對資料，進行排序選取TopN的資料。 2.資料 aa 78 bb 98 aa 80 cc 98 aa 69 cc 87 bb 97 cc 86 aa 97 bb 78 bb 34 cc 85 bb 92 cc 72 bb 32 bb 23 3

最新美團點評Java團隊面試題：Spark+JDK ZGC+演算法+HashMap+Redis

技術面（一、二、三面） Java 有什麼鎖型別? 有了解Spark嗎？Spark為什麼比Hadoop要快？談談poll和epoll，epoll是同步還是非同步 JMM、老年代在什麼情況下會觸發GC、對老年代的GC會不會導致程式卡頓？（最優吞吐量和最短停頓時間）

【圖文解析】TopN 演算法實現-自定義 GroupComparator

TopN 演算法實現-自定義 GroupComparator 1、需求在統計學生成績的小專案中，現在有一個需求：求出每個班參考學生成績最高的學生的資訊，班級，姓名和平均分 2、分析利用“班級和平均分”作為 key，可以將 map 階段讀取到的所有學生成績資料按

密碼庫LibTomCrypt學習記錄——（2.12）分組密碼演算法的工作模式——OMAC認證模式

OMAC OMAC是一種認證模式，LibTomCrypt中涉及的OMAC，而NIST中提到的是CMAC。它們之間的關係是這樣的：為避免基本的MAC演算法CBC-MAC存在的安全缺陷，Black和Rogaway對其進行了改進，提出了避免CBC-MAC安全缺陷的XCBC演算法。Iwa

密碼庫LibTomCrypt學習記錄——（2.11）分組密碼演算法的工作模式——CTR程式碼示例

以下程式碼實現了CBC的正確性測試（標準測試資料）說明： 1. 程式碼裡面使用了一個Str2Num函式，它將測試向量中的字串轉為十六進位制位元組資料，可自行實現。 2. 測試向量出處為NIST SP 800-38A (Recommendation for Block Cipher &n

密碼庫LibTomCrypt學習記錄——（2.9）分組密碼演算法的工作模式——OFB程式碼示例

OFB加密檔案示例 //#include <Windows.h> #include <stdio.h> #include <stdlib.h> #include "tomcrypt.h" #include "TestMode.h" //#

密碼庫LibTomCrypt學習記錄——（2.5）分組密碼演算法的工作模式——CBC程式碼示例

密碼庫LibTomCrypt學習記錄——（2.10）分組密碼演算法的工作模式——CTR模式

CTR是對序列號加密後與明文或者密文異或。這種方式被後面的很多工作模式所採用。參考文獻 NIST SP 800-38A CTR加解密 CTR加密記每個塊用到的計數器為T1，T2，Tn，要求每個計數器值各不相同 Oj = CIPHK(Tj) for j

密碼庫LibTomCrypt學習記錄——（2.8）分組密碼演算法的工作模式——OFB模式

OFB是一種加密模式。CFB和OFC工作模式中，密碼演算法象流密碼一樣生產出金鑰流供異或名密文用。參考文獻 NIST SP 800-38A OFB加解密 OFB 加密 I1 = IV; Ij = Oj -1

基於Spark實現推薦演算法-1:推薦演算法簡介

個性化推薦系統簡介個性化推薦系統的定義在 1997 年由 Resnick 和 Varian 提出:利用網際網路向用戶提供信息和建議，幫助使用者選擇產品，或模擬售貨員幫助使用者完成購買行為的系統。通常推薦由三個要素組成:推薦演算法、使用者、候選推薦專案。

Spark-分組TOPN演算法

相關推薦