Spark 核心程式設計（10）-Top N

阿新 • • 發佈：2019-01-11

1 TopN

1.1 對檔案內數字，取最大的前 3 個

在這裡插入圖片描述

Java 版本

package topn;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import 
 org.apache.spark.api.java.function.PairFunction;
import org.codehaus.janino.Java;
import scala.Tuple2;

import java.util.List;

public class Top3 {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("Top3").setMaster("local");
        JavaSparkContext sc = 
 new JavaSparkContext(conf);

        JavaRDD<String> lines = sc.textFile("D:/topn.txt");

        JavaPairRDD<Integer, String> pairs = lines.mapToPair(new PairFunction<String, Integer, String>() {
            @Override
            public Tuple2<Integer, String> call(String s) 
 throws Exception {
                return new Tuple2<>(Integer.valueOf(s), s);
            }
        });

        JavaPairRDD<Integer, String> sortedPairs = pairs.sortByKey(false);

        JavaRDD<Integer> sortedNums = sortedPairs.map(new Function<Tuple2<Integer, String>, Integer>() {
            @Override
            public Integer call(Tuple2<Integer, String> v1) throws Exception {
                return v1._1;
            }
        });

        List<Integer> list = sortedNums.take(3);
        for (Integer e : list) {
            System.out.println(e);
        }

    }
}

Scala 版本

import org.apache.spark.{SparkConf, SparkContext}

object Top3 {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setAppName("Top3").setMaster("local")
        val sc = new SparkContext(conf)

        val lines = sc.textFile("D:/topn.txt")
        val pairs = lines.map(line=>(line.toInt,line))
        val sortedPairs = pairs.sortByKey(false)

        val sortedNums = sortedPairs.map(_._1)

        val top3 = sortedNums.take(3)

        top3.foreach(println)

    }
}

在這裡插入圖片描述

2 對每個班級內的學生成績，取出前3

分組取 topN

2.1 Java 版本

package topn;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

import java.util.Arrays;
import java.util.Iterator;
;

public class GroupTop3 {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("Top3").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> lines = sc.textFile("D:/scores.txt");

        JavaPairRDD<String, Integer> pairs = lines.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {
                String[] lineSplited = s.split(" ");
                return new Tuple2<>(lineSplited[0], Integer.valueOf(lineSplited[1]));
            }
        });

        JavaPairRDD<String, Iterable<Integer>> groupedPairs = pairs.groupByKey();

        JavaPairRDD<String, Iterable<Integer>> top3Score = groupedPairs.mapToPair(new PairFunction<Tuple2<String, Iterable<Integer>>, String, Iterable<Integer>>() {
            @Override
            public Tuple2<String, Iterable<Integer>> call(Tuple2<String, Iterable<Integer>> classScores) throws Exception {

                Integer[] top3 = new Integer[3];
                String className = classScores._1;
                Iterator<Integer> scores = classScores._2.iterator();

                while (scores.hasNext()) {
                    Integer score = scores.next();

                    for (int i = 0; i < 3; i++) {
                        if (top3[i] == null) {
                            top3[i] = score;
                            break;
                        } else if (score > top3[i]) { //後移一位
                            for (int j = 2; j > i; j--) {
                                top3[j] = top3[j - 1];
                            }

                            top3[i] = score;
                            break;
                        }
                    }
                }

                return new Tuple2<String, Iterable<Integer>>(className, Arrays.asList(top3));
            }
        });

        top3Score.foreach(new VoidFunction<Tuple2<String, Iterable<Integer>>>() {
            @Override
            public void call(Tuple2<String, Iterable<Integer>> t) throws Exception {
                System.out.println("calss: " + t._1);

                Iterator<Integer> it = t._2.iterator();
                while (it.hasNext()) {
                    Integer score = it.next();
                    System.out.println(score);
                }

                System.out.println("==============================");
            }
        });

    }
}

在這裡插入圖片描述

Spark 核心程式設計（10）-Top N

1 TopN 1.1 對檔案內數字，取最大的前 3 個 Java 版本 package topn; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairR

scala筆記-面向物件程式設計（10）

定義一個簡單的類 // 定義類，包含field以及方法 class HelloWorld { private var name = "leo" def sayHello() { print("Hello, " + name) } def getName = name

牛客網線上程式設計（10）：身份證分組-python

題目描述 18位身份證的編碼規則是：前1、2位數字表示：所在省（直轄市、自治區）的程式碼第3、4位數字表示：所在地級市（自治州）的程式碼第5、6位數字表示：所在區（縣、自治縣、縣級市）的程式碼；第7—14位數字表示：出生年、月、日；第15、16位數字表示：所在地的

Java併發程式設計（10）:使用wait/notify/notifyAll實現執行緒間通訊的幾點重要說明

在Java中，可以通過配合呼叫Object物件的wait（）方法和notify（）方法或notifyAll（）方法來實現執行緒間的通訊。線上程中呼叫wait（）方法，將阻塞等待其他執行緒的通知（其他執行緒呼叫notify（）方法或notifyAll（）方法），線上程中呼叫notify（）方法或notifyAl

java資料庫程式設計（10）離線RowSet

使用離線的RowSet可以使得不用一直保持Connection連結，離線RowSet會直接將地城資料讀入到記憶體，封裝成RowSet物件，而RowSet物件可以直接當作Java Bean來使用 CachedRowSet是所有離線RowSet的父介面程式執行前和程式執行

Spark學習筆記（10）—— wordcount 執行流程分析

1 啟動叢集啟動 HDFS start-dfs.sh 啟動 Spark 叢集 /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all

大資料實時計算Spark學習筆記（10）—— Spar SQL(2) -JDBC方式操作表

1 Spark SQL 的 JDBC 方式 POM 檔案新增依賴 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connect

android系統（10）--top 命令

Usage: top [ -m max_procs ] [ -n iterations ] [ -d delay ] [ -s sort_column ] [ -t ] [ -h ] -m num Maximum number of processes to disp

[1.2]Spark core程式設計（一）之RDD總論與建立RDD的三種方式

參考場景 RDD的理解一、RDD是基於工作集的應用抽象;是分散式、函數語言程式設計的抽象。 MapReduce:基於資料集的處理。兩者的共同特徵：位置感知（具體資料在哪裡）、容錯、負載均衡。基於資料集的處理：從物理儲存裝置上載入資料，然

核心程式設計（六）：面向物件——封裝

進擊のpython 封裝什麼是封裝呢？在前面是不是寫過這樣的程式碼 class Dog: froom = "ch" def __init__(self, name, age, kind="erha"): self.blood =

Spark核心程式設計：建立RDD（集合、本地檔案、HDFS檔案）

1,建立RDD 1.進行Spark核心程式設計時，首先要做的第一件事，就是建立一個初始的RDD。該RDD中，通常就代表和包含了Spark應用程式的輸入源資料。然後在建立了初始的RDD之後，才可以通過Spark Core提供的transformation運算元，

Spark筆記整理（二）：RDD與spark核心概念名詞

大數據 Spark [TOC] Spark RDD 非常基本的說明，下面一張圖就能夠有基本的理解： Spark RDD基本說明 1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數據集)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全

201771010120 蘇浪浪面向物件程式設計（Java）第10周

1、實驗目的與要求 (1) 理解泛型概念； (2) 掌握泛型類的定義與使用； (3) 掌握泛型方法的宣告與使用； (4) 掌握泛型介面的定義與實現； (5)瞭解泛型程式設計，理解其用途。 2、實驗內容和步驟實驗1：匯入第8章示例程式，測試程式並進行程式碼註釋。測試程式1：

201771010102 常惠琢《2018面向物件程式設計（Java）》第10周學習總結

實驗十泛型程式設計技術實驗時間 2018-11-1 1、實驗目的與要求 (1) 理解泛型概念； (2) 掌握泛型類的定義與使用； (3) 掌握泛型方法的宣告與使用； (4) 掌握泛型介面的定義與實現； (5)瞭解泛型程式

Python核心程式設計（第二版）第六章部分習題程式碼

6-2字串識別符號.修改例 6-1 的 idcheck.py 指令碼,使之可以檢測長度為一的識別符號,並且可以識別 Python 關鍵字,對後一個要求,你可以使用 keyword 模組(特別是 keyword.kelist)來輔助 #!/usr/bin/env python

【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（二）

目錄 RPC管道處理TransportChannelHandler RPC服務端處理RpcHandler 載入程式Bootstrap RPC客戶端TransportClient 總結接著【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（一）接著分析 R

【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（一）

目錄 RPC上下文TransportContext RPC配置TransportConf RPC客戶端工廠TransprotClientFactory RPC服務端TransportServer 作為一個分散式計算引擎，既然是分散式，那麼網路通訊是肯定少不了的，在Spark中

Spark學習記錄（三）核心API模組介紹

spark ------------- 基於hadoop的mr，擴充套件MR模型高效使用MR模型，記憶體型叢集計算，提高app處理速度。 spark特點 ------------- 速度:在記憶體中儲存中間結果。支援多種語言。Scala、Java、Python 內建了80+的運算元. 高階分析

java核心技術（8）泛型程式設計

泛型程式設計（Generic programming）意味著編寫的程式碼可以被很多不同型別的物件所重用。比雜亂的使用Object物件然後再進行強制型別轉換具有更好的可讀性和安全性。尤其對於集合。 public static <T extends Comparab

Python核心程式設計（第3版）PDF

百度雲盤連結：https://pan.baidu.com/s/1qqsMSl7tIZFnK1EbysIISQ 提取碼：owmm Python核心程式設計（第3版）是經典暢銷圖書《Python核心程式設計（第二版）》的全新升級版本，總共分為3部分。第1部分為講解了Python的一些通用應用，包括正則表示

Spark 核心程式設計（10）-Top N

1 TopN

1.1 對檔案內數字，取最大的前 3 個

2 對每個班級內的學生成績，取出前3

2.1 Java 版本

相關推薦