spark2.x由淺入深深到底系列六之RDD java api詳解二

阿新 • • 發佈：2017-09-18

spark 大數據 javaapi 老湯 rdd

package com.twq.javaapi.java7;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

import java.io.Serializable;
import java.util.Arrays;
import java.util.Comparator;
import java.util.Iterator;
import java.util.concurrent.TimeUnit;

/**
 * Created by tangweiqun on 2017/9/16.
 */
public class BaseActionApiTest {

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<Integer> listRDD = sc.parallelize(Arrays.asList(1, 2, 4, 3, 3, 6), 2);

        //結果： [1, 2, 4, 3, 3, 6]
        System.out.println("collect = " + listRDD.collect());
        //結果：[1, 2]
        System.out.println("take(2) = " + listRDD.take(2));
        //結果：[6, 4]
        System.out.println("top(2) = " + listRDD.top(2));
        //結果：1
        System.out.println("first = " + listRDD.first());
        //結果：1
        System.out.println("min = " + listRDD.min(new AscComparator()));
        //結果：6
        System.out.println("min = " + listRDD.min(new DescComparator()));
        //結果：6
        System.out.println("max = " + listRDD.max(new AscComparator()));
        //結果：1
        System.out.println("max = " + listRDD.max(new DescComparator()));
        //結果：[1, 2]
        System.out.println("takeOrdered(2) = " + listRDD.takeOrdered(2));
        //結果：[1, 2]
        System.out.println("takeOrdered(2)  = " + listRDD.takeOrdered(2, new AscComparator()));
        //結果：[6, 4]
        System.out.println("takeOrdered(2)  = " + listRDD.takeOrdered(2, new DescComparator()));

        listRDD.foreach(new VoidFunction<Integer>() {
            @Override
            public void call(Integer element) throws Exception {
                //這個性能太差，遍歷每一個元素的時候都需要調用比較耗時的getInitNumber
                //建議采用foreachPartition來代替foreach操作
                Integer initNumber = getInitNumber("foreach");
                System.out.println((element + initNumber) + "=========");
            }
        });

        listRDD.foreachPartition(new VoidFunction<Iterator<Integer>>() {
            @Override
            public void call(Iterator<Integer> integerIterator) throws Exception {
                //和foreach api的功能是一樣，只不過一個是將函數應用到每一條記錄，這個是將函數應用到每一個partition
                //如果有一個比較耗時的操作，只需要每一分區執行一次這個操作就行，則用這個函數
                //這個耗時的操作可以是連接數據庫等操作，不需要計算每一條時候去連接數據庫，一個分區只需連接一次就行
                Integer initNumber = getInitNumber("foreach");
                while (integerIterator.hasNext()) {
                    System.out.println((integerIterator.next() + initNumber) + "=========");
                }
            }
        });

        Integer reduceResult = listRDD.reduce(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer ele1, Integer ele2) throws Exception {
                return ele1 + ele2;
            }
        });
        //結果：19
        System.out.println("reduceResult = " + reduceResult);

        Integer treeReduceResult = listRDD.treeReduce(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer + integer2;
            }
        }, 3);
        //結果：19
        System.out.println("treeReduceResult = " + treeReduceResult);

        //和reduce的功能類似，只不過是在計算每一個分區的時候需要加上初始值0，最後再將每一個分區計算出來的值相加再加上這個初始值
        Integer foldResult = listRDD.fold(0, new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer + integer2;
            }
        });
        //結果：19
        System.out.println("foldResult = " + foldResult);

        //先初始化一個我們想要的返回的數據類型的初始值
        //然後在每一個分區對每一個元素應用函數一(acc, value) => (acc._1 + value, acc._2 + 1)進行聚合
        //最後將每一個分區生成的數據應用函數(acc1, acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2)進行聚合
        Tuple2 aggregateResult = listRDD.aggregate(new Tuple2<Integer, Integer>(0, 0),
                new Function2<Tuple2<Integer, Integer>, Integer, Tuple2<Integer, Integer>>() {
                    @Override
                    public Tuple2<Integer, Integer> call(Tuple2<Integer, Integer> acc, Integer integer) throws Exception {
                        return new Tuple2<>(acc._1 + integer, acc._2 + 1);
                    }
                }, new Function2<Tuple2<Integer, Integer>, Tuple2<Integer, Integer>, Tuple2<Integer, Integer>>() {
                    @Override
                    public Tuple2<Integer, Integer> call(Tuple2<Integer, Integer> acc1, Tuple2<Integer, Integer> acc2) throws Exception {
                        return new Tuple2<>(acc1._1 + acc2._1, acc1._2 + acc2._2);
                    }
                });
        //結果：(19,6)
        System.out.println("aggregateResult = " + aggregateResult);

        Tuple2 treeAggregateResult = listRDD.treeAggregate(new Tuple2<Integer, Integer>(0, 0),
                new Function2<Tuple2<Integer, Integer>, Integer, Tuple2<Integer, Integer>>() {
                    @Override
                    public Tuple2<Integer, Integer> call(Tuple2<Integer, Integer> acc, Integer integer) throws Exception {
                        return new Tuple2<>(acc._1 + integer, acc._2 + 1);
                    }
                }, new Function2<Tuple2<Integer, Integer>, Tuple2<Integer, Integer>, Tuple2<Integer, Integer>>() {
                    @Override
                    public Tuple2<Integer, Integer> call(Tuple2<Integer, Integer> acc1, Tuple2<Integer, Integer> acc2) throws Exception {
                        return new Tuple2<>(acc1._1 + acc2._1, acc1._2 + acc2._2);
                    }
                });
        //結果：(19,6)
        System.out.println("treeAggregateResult = " + treeAggregateResult);


    }

    public static Integer getInitNumber(String source) {
        System.out.println("get init number from " + source + ", may be take much time........");
        try {
            TimeUnit.SECONDS.sleep(1);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        return 1;
    }

    private static class AscComparator implements Comparator<Integer>, Serializable {

        @Override
        public int compare(java.lang.Integer o1, java.lang.Integer o2) {
            return o1 - o2;
        }

    }

    private static class DescComparator implements Comparator<Integer>, Serializable {

        @Override
        public int compare(java.lang.Integer o1, java.lang.Integer o2) {
            return o2 - o1;
        }
    }

}

對於reduce, treeReduce, fold, aggragate, treeAggrate等api的詳細原理，可以參考spark core RDD api原理詳解。

spark 大數據 javaapi 老湯 rdd package com.twq.javaapi.java7; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.

spark2.x由淺入深深到底系列六之RDD java api詳解三

老湯 spark 大數據 javaapi rdd 學習任何spark知識點之前請先正確理解spark，可以參考：正確理解spark本文詳細介紹了spark key-value類型的rdd java api一、key-value類型的RDD的創建方式1、sparkContext.parall

spark2.x由淺入深深到底系列六之RDD java api詳解四

spark 大數據 javaapi 老湯 rdd 學習spark任何的知識點之前，先對spark要有一個正確的理解，可以參考：正確理解spark本文對join相關的api做了一個解釋SparkConf conf = new SparkConf().setAppName("appName")

spark2.x由淺入深深到底系列六之RDD java api調用scala api的原理

spark 大數據 javaapi 老湯 rdd RDD java api其實底層是調用了scala的api來實現的，所以我們有必要對java api是怎麽樣去調用scala api，我們先自己簡單的實現一個scala版本和java版本的RDD和SparkContext一、簡單實現scal

spark2.x由淺入深深到底系列六之RDD java api用JdbcRDD讀取關系型數據庫

spark 大數據 javaapi rdd jdbcrdd 學習任何的spark技術之前，請先正確理解spark，可以參考：正確理解spark以下是用spark RDD java api實現從關系型數據庫中讀取數據，這裏使用的是derby本地數據庫，當然可以是mysql或者oracle等關

spark2.x由淺入深深到底系列六之RDD 支持java8 lambda表達式

spark lambda java8 老湯 rdd 學習spark任何技術之前，請正確理解spark，可以參考：正確理解spark我們在 http://7639240.blog.51cto.com/7629240/1966131 中已經知道了，一個scala函數其實就是java中的一個接口

spark2.x由淺入深深到底系列五之python開發spark環境配置

spark 大數據 rdd 開發環境 python 學習spark任何的技術前，請先正確理解spark，可以參考: 正確理解spark以下是在mac操作系統上配置用python開發spark的環境一、安裝pythonspark2.2.0需要python的版本是Python2.6+ 或者 P

MySQL系列-優化之explain執行計劃詳解

1.id介紹這個id不是主鍵的意思，他是用來標識select查詢的序列號，包含一組數字，表示查詢中執行select子句或者操作表的順序。會出現以下情況： id相同：按從上到下順序執行 id不同：id值越大，優先順序越高，越先被執行 id相同不同的同時存在：優先執

Node 之 fs模組 API詳解

原文出自：https://www.pandashen.com 本文所有程式碼git地址：https://gitee.com/vr2/node/tree/master/fs fs 概述　　在 NodeJS 中，所有與檔案操作都是通過 fs 核心模組來實現的，包括檔案目錄的建

Android開發之JSON資料解析詳解(二)

在上一篇我們講解了Android開發JSON的基本介紹以及JSON的資料結構等, 今天我們來講解一下JSON的工作原理以及基本用法: JSON解析分為兩種情況,一種是在伺服器端解析,另一種是在客戶端解析第一種:在伺服器段解析: 通常，客戶端在請求伺服器資料時，伺服器

Android Camera 系列（三）Camera API 詳解

概述 Camera 可能是接下來個人想深入學習的課題，準備新起一個系列，從個人的角度總結闡述自己對於 Android Camera 的研究過程，希望也能夠對其他想學習 Camera 的同學一些幫助。本小節內容為 Android Camera 官方文件的精要

Shell學習之Bash變量詳解(二)

生效 tro 固定字符 var $0 路徑查看列表 Shell學習之Bash變量詳解目錄 Bash變量 Bash變量註意點用戶自定義變量環境變量位置參數變量預定義變量 Bash變量用戶自定義變量：在Bash中由用戶定義的變量。環境變量：這種

shiro實戰系列(六)之Authorization(授權)

這樣的 card arch 訪問控制 authorize 列表數據 nbsp 測試授權，又稱作為訪問控制，是對資源的訪問管理的過程。換句話說，控制誰有權限在應用程序中做什麽。授權檢查的例子是：該用戶是否被允許訪問這個網頁，編輯此數據，查看此按鈕，或打印到

Spring系列之六：AOP的代理詳解

Aop是面向切片的程式設計，首先先用圖解釋AOP的程式設計這是沒有用aop的情況，程式碼中存在大量的重複的程式碼：使用aop就是採用一個切片，對封裝好的程式進行切開，減少重複的程式碼，對重複的程式碼進行復用：那麼如何實現這種aop的切片程式設計了？就是使用動態代理的方式，為方

Go語言入門系列(六)之再探函式

[Go語言入門系列](https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&album_id=1441283546689404928)前面的文章： - [Go語言入門系列(三)之陣列和切片](https://mp.weixin.qq.com/

Linux系列之SAR命令使用詳解

1. CPU利用率 sar -p （檢視全天） sar -u 1 10 （1：每隔一秒，10：寫入10次） 1.1. CPU輸出項說明輸出項詳細說明 CPU all 表示統計資訊為

linux系列之常用監控命令詳解

1.top命令優點：實時掌握OS整體資訊，每隔幾秒鐘會顯示一下OS的資訊，並整理出活躍的程序，顯示這些程序的資訊。缺點：在實時顯示資訊的情況下，我們不能知道非活躍程序的資訊，如果需要知道非活躍程序，就得用ps命令。 ***load average平均負載：1分

資料結構系列之希爾排序詳解

基於插入排序的希爾排序Java實現 1、先要搞清楚插入排序的原理 public void InsertSort(int data[]){ //插入排序（升序） int temp; int i,j; for(i=1;i<data.length;i++)

axis2系列之services.xml檔案詳解

原文連結（http://beyond-gzz.blog.163.com/blog/static/744735620119935948592/ ）在Axis1中部署服務時，我們使用service.wsdd檔案來配置服務。在Axis2中，不再使用service.wsdd

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

Stage劃分的時候，大家應該都知道是從最後一個stage向根據寬窄依賴，遞迴進行stage劃分。但是程式碼裡面涉及的邏輯複雜。畢竟涉及到相互遞迴呼叫。讓人似懂非懂。反正我是炸毛了 o(╥﹏╥)o 本文專門用一篇文章詳細論述DAGScheduler 的 stage 劃分流程

spark2.x由淺入深深到底系列六之RDD java api詳解二

相關推薦