Spark-Java分組取TopN的優化

阿新 • • 發佈：2018-12-02

程式碼

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

import java.util.Iterator;

public class TestTN {
    public static void main (String[] args){
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("TestTN");
        JavaSparkContext context = new JavaSparkContext(conf);

        JavaRDD<String> lineRDD = context.textFile("./data/scores.txt");

        JavaPairRDD<String, Integer> pairRDD = lineRDD.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {
                String[] split = s.split(" ");
                String topType = split[0];
                Integer score = Integer.valueOf(split[1]);
                return new Tuple2<String, Integer>(topType,score);
            }
        });

        JavaPairRDD<String, Iterable<Integer> >groupRDD = pairRDD.groupByKey();

        groupRDD.foreach(new VoidFunction<Tuple2<String, Iterable<Integer>>>() {
            @Override
            public void call(Tuple2<String, Iterable<Integer>> tuple2) throws Exception {
                String className = tuple2._1;
                Iterator<Integer> iterator = tuple2._2.iterator();

                System.out.println(tuple2);

                Integer[] top3 = new Integer[3];
                while (iterator.hasNext()){
                    Integer next = iterator.next();
                    for (int i = 0; i < top3.length; i++) {
                        if (top3[i] == null){
                            top3[i] = next;
                            break;
                        }else if (next > top3[i]){
                            for (int j = top3.length-1; j>i;j--){
                                top3[j] = top3[j-1];
                            }
                            top3[i] = next;
                            break;
                        }
                    }
                }
                System.out.println("TopType : "+ className);

                for (Integer score : top3){
                    System.out.println(score);
                }

            }
        });
    }
}

優化

 Integer[] top3 = new Integer[3];
	                while (iterator.hasNext()){
	                    Integer next = iterator.next();
	                    for (int i = 0; i < top3.length; i++) {
	                        if (top3[i] == null){
	                            top3[i] = next;
	                            break;
	                        }else if (next > top3[i]){
	                            for (int j = top3.length-1; j>i;j--){
	                                top3[j] = top3[j-1];
	                            }
	                            top3[i] = next;
	                            break;
	                        }

Spark-Java分組取TopN的優化

程式碼 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apac

Spark core分組取topN案例

描述：在HDFS上有訂單資料order.txt檔案，檔案欄位的分割符號","，樣本資料如下：其中欄位依次表示訂單id，商品id，交易額問題：使用sparkcore，求每個訂單中成交額最大的商品id 程式碼如下： package com.company.sparkc

spark分組取topN

準備資料： aa 11 bb 11 cc 34 aa 22 bb 67 cc 29 aa 36 bb 33 cc 30 aa 42 bb 44 cc 49 import org.apache.spark.{SparkConf, SparkContext} /** * @author

spark學習記錄（七、二次排序和分組取TopN問題）

1.二次排序例題：將兩列數字按第一列升序，如果第一列相同，則第二列升序排列資料檔案：https://download.csdn.net/download/qq_33283652/10894807 將資料封裝成物件，對物件進行排序，然後取出value public class Se

二次排序與分組取TopN

二次排序 SparkConf sparkConf = new SparkConf() .setMaster(“local”) .setAppName(“SecondarySortTest”); final JavaSparkContext sc = new JavaSparkContex

SparkCore程式設計（一）-分組取topN

1、檔案資料Spark,100 Hadoop,62 Flink,77 Kafka,91 Hadoop,93 Spark,78 Hadoop,69 Spark,98 Hadoop,62 Spark,99 Hadoop,61 Spark,70 Hadoop,75 Spark,88

Spark：Java實現分組取Top N

1、源資料如下，取出每班成績的前三名 class1 98 class2 90 class2 92 class1 96 class1 100 class2 89 class2 68 class1 81 class2 90 2.實現程式碼 package c

Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

分組取Top N在日常需求中很多見：每個班級分數前三名同學的名字以及分數各省指標數量前三的市的名字等等需求，主要思想就是在某一個分割槽（班級，省）中取出該分割槽Top N的資料測試資料格式：如上圖，欄位含義為，班級，學生姓名，分數下面我們通過一

【Spark 深入學習-08】說說Spark分區原理及優化方法

學習格式讀取文件 tmc 資料數值計算詳解 shc 存儲介質本節內容 ------------------ · Spark為什麽要分區 · Spark分區原則及方法 · Spark分區案例 · 參考

spark-yarn 模式 jar包優化

spark 大數據 hadoop yarn在yarn模式下，會上傳jar包到yarn來執行spark程序，如果每次都上傳，很耗時間，而且如果是阿裏雲的機器，上傳很慢，180m的jar要上傳十幾分鐘，所以要提前上傳到hdfs中去。spark支持如下幾個參數spark.yarn.jars：只能指定具體jar包，在

EF 分組取最後一條的實例

dev rep pat pan bsp div pos logs spa var qGroup = from dispatch in _dispatchRepository.GetAll() group dispatch

mysql下分組取關聯表指定提示方法，類似於mssql中的cross apply

nbsp cts ont font ack you 方法 sta lease 轉至:https://stackoverflow.com/questions/12113699/get-top-n-records-for-each-group-of-grouped-result

MSSQL分組取後每一組的最新一條記錄

top 分享 mssql 方法 esc box nan 技術分享 -c 數據庫中二張表，用戶表和獎金記錄表，獎金記錄表中一個用戶有多條信息，有一個生效時間，現在要查詢：獎金生效時間在三天前，每個用戶取最新一條獎金記錄，且用戶末鎖定以前用的方法是直接寫在C#代碼中的：

MySql按字段分組取最大值記錄 [此博文包含圖片]

from htm 技術方法 sin gid 最大值 count not 要求：獲得按table1_id分組，並且age最大的記錄信息，即2、3、5條方法一： select * from (select * from table2 order by age

java爬取百度首頁源代碼

clas read 意思出現異常 nts java.net new 有意思 all 爬蟲感覺挺有意思的，寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點，後期會加深的。 1 package test; 2 3 import java.io.B

基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

ava -s for 轉換成模型保存 ext js rgs cti txt 本文主要包括以下內容： 1）模型訓練數據生成（demo） 2 ) 模型訓練（spark+java）,數據存儲在hdfs上 3）預測數據生成（demo） 4）使用生成的模型進行文本分類。一

Java集合類操作優化經驗總結

設置 mar ise long 初始化實際類型線性表 core 不一定在實際的項目開發中會有非常多的對象，怎樣高效、方便地管理對象，成為影響程序性能與可維護性的重要環節。Java 提供了集合框架來解決此類問題。線性表、鏈表、哈希表等是經常使用的數據結構，在

JAVA代碼效率優化

pen 如果方式返回門戶充足模式大量 server JAVA代碼效率優化 1、盡量指定類的final修飾符帶有final修飾符的類是不可派生的。　　如果指定一個類為final，則該類所有的方法都是final。Java編譯器會尋找機會內聯

逆向知識第六講,取摸優化的幾種方式

ebp 有符號基本什麽是說了 xxx 個數 color 常量　　　　　　　　逆向知識第六講,取摸優化的幾種方式除法講完之後,直接開始講 % 運算符在匯編中表現形式首先C的高級代碼貼上來. 高級代碼: // Tedy.cpp : Defines the en

spark java 示例代碼wordcount

pairs form onf 字符串拆分 apt tex sco 初始化 weibo import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.

Spark-Java分組取TopN的優化

相關推薦