【Spark篇】---Spark中Transformations轉換算子

阿新 • • 發佈：2018-02-01

pack gpo rds color boolean long als sam park

一、前述

Spark中默認有兩大類算子，Transformation（轉換算子）,懶執行。action算子，立即執行，有一個action算子，就有一個job。

通俗些來說由RDD變成RDD就是Transformation算子，由RDD轉換成其他的格式就是Action算子。

二、常用Transformation算子

假設數據集為此：

1、filter

過濾符合條件的記錄數，true保留，false過濾掉。

package com.spark.spark.transformations;


import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
 
import org.apache.spark.api.java.function.VoidFunction;
/**
 * filter
 * 過濾符合符合條件的記錄數，true的保留，false的過濾掉。
 *
 */
public class Operator_filter {
    public static void main(String[] args) {
        /**
         * SparkConf對象中主要設置Spark運行的環境參數。
         * 1.運行模式
         * 2.設置Application name
         * 3.運行的資源需求
          
*/
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("filter");
        /**
         * JavaSparkContext對象是spark運行的上下文，是通往集群的唯一通道。
         */
        JavaSparkContext jsc = new JavaSparkContext(conf);
        JavaRDD<String> lines = jsc.textFile("./words.txt");
        JavaRDD<String> resultRDD = lines.filter(new Function<String, Boolean>() {

            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public Boolean call(String line) throws Exception {
                return !line.contains("hadoop");//這裏是不等於
            }
            
        });
        
        resultRDD.foreach(new VoidFunction<String>() {
            
            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public void call(String line) throws Exception {
                System.out.println(line);
            }
        });
        jsc.stop();
    }
}

函數解釋：

技術分享圖片

進來一個String，出去一個Booean.

結果：

技術分享圖片

2、map

將一個RDD中的每個數據項，通過map中的函數映射變為一個新的元素。

特點：輸入一條，輸出一條數據。

/**
 * map 
 * 通過傳入的函數處理每個元素，返回新的數據集。
 * 特點：輸入一條，輸出一條。
 * 
 * 
 * @author root
 *
 */
public class Operator_map {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("map");
        JavaSparkContext jsc = new JavaSparkContext(conf);
        JavaRDD<String> line = jsc.textFile("./words.txt");
        JavaRDD<String> mapResult = line.map(new Function<String, String>() {

            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public String call(String s) throws Exception {
                return s+"~";
            } 
        });
        
        mapResult.foreach(new VoidFunction<String>() {
            
            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public void call(String t) throws Exception {
                System.out.println(t);
            }
        });
        
        jsc.stop();
    }
}

函數解釋：

技術分享圖片

進來一個String，出去一個String。

函數結果：

技術分享圖片

3、flatMap（壓扁輸出，輸入一條，輸出零到多條）

先map後flat。與map類似，每個輸入項可以映射為0到多個輸出項。

package com.spark.spark.transformations;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.VoidFunction;

/**
 * flatMap
 * 輸入一條數據，輸出0到多條數據。
 * @author root
 *
 */
public class Operator_flatMap {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("flatMap");

        JavaSparkContext jsc = new JavaSparkContext(conf);
        JavaRDD<String> lines = jsc.textFile("./words.txt");
        JavaRDD<String> flatMapResult = lines.flatMap(new FlatMapFunction<String, String>() {

            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public Iterable<String> call(String s) throws Exception {
                
                return Arrays.asList(s.split(" "));
            }
            
        });
        flatMapResult.foreach(new VoidFunction<String>() {
            
            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public void call(String t) throws Exception {
                System.out.println(t);
            }
        });
        
        jsc.stop();
    }
}

函數解釋：

技術分享圖片

進來一個String，出去一個集合。

Iterater 集合 iterator 遍歷元素

函數結果：

技術分享圖片

4、sample（隨機抽樣）

隨機抽樣算子，根據傳進去的小數按比例進行又放回或者無放回的抽樣。（True，fraction，long）

True 抽樣放回

Fraction 一個比例 float 大致數據越大越準確

第三個參數：隨機種子，抽到的樣本一樣方便測試

package com.spark.spark.transformations;

import java.util.ArrayList;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFlatMapFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

public class Operator_sample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("sample");
        
        JavaSparkContext jsc = new JavaSparkContext(conf);
        JavaRDD<String> lines = jsc.textFile("./words.txt");
        JavaPairRDD<String, Integer> flatMapToPair = lines.flatMapToPair(new PairFlatMapFunction<String, String, Integer>() {

            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public Iterable<Tuple2<String, Integer>> call(String t)
                    throws Exception {
                List<Tuple2<String,Integer>> tupleList = new ArrayList<Tuple2<String,Integer>>();
                tupleList.add(new Tuple2<String,Integer>(t,1));
                return tupleList;
            }
        });
        JavaPairRDD<String, Integer> sampleResult = flatMapToPair.sample(true,0.3,4);//樣本有7個所以大致抽樣為1-2個
        sampleResult.foreach(new VoidFunction<Tuple2<String,Integer>>() {
            
            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public void call(Tuple2<String, Integer> t) throws Exception {
                System.out.println(t);
            }
        });
        
        jsc.stop();
    }
}

函數結果：

技術分享圖片

5.reduceByKey

將相同的Key根據相應的邏輯進行處理。

package com.spark.spark.transformations;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

public class Operator_reduceByKey {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("reduceByKey");
        JavaSparkContext jsc = new JavaSparkContext(conf);
        JavaRDD<String> lines = jsc.textFile("./words.txt");
        JavaRDD<String> flatMap = lines.flatMap(new FlatMapFunction<String, String>() {

            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public Iterable<String> call(String t) throws Exception {
                return Arrays.asList(t.split(" "));
            }
        });
        JavaPairRDD<String, Integer> mapToPair = flatMap.mapToPair(new PairFunction<String, String, Integer>() {

            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public Tuple2<String, Integer> call(String t) throws Exception {
                return new Tuple2<String,Integer>(t,1);
            }
            
        });
        
        JavaPairRDD<String, Integer> reduceByKey = mapToPair.reduceByKey(new Function2<Integer,Integer,Integer>(){

            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1+v2;
            }
            
        },10);
        reduceByKey.foreach(new VoidFunction<Tuple2<String,Integer>>() {
            
            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public void call(Tuple2<String, Integer> t) throws Exception {
                System.out.println(t);
            }
        });
        
        jsc.stop();
    }
}

函數解釋：

函數結果：

技術分享圖片

【Spark篇】---Spark中Transformations轉換算子

pack gpo rds color boolean long als sam park 一、前述 Spark中默認有兩大類算子，Transformation（轉換算子）,懶執行。action算子，立即執行，有一個action算子，就有一個job。通俗些來說由RDD變成

【Spark篇】---Spark中資源調度源碼分析與應用

部分 app post 類名 inf master 執行過程 efault spark 一、前述 Spark中資源調度是一個非常核心的模塊，尤其對於我們提交參數來說，需要具體到某些配置，所以提交配置的參數於源碼一一對應，掌握此節對於Spark在任務執行過程中的資源分配會更上

【Spark篇】---Spark中Shuffle文件的尋址

sta lock exe 數據小文件默認節點刪除提高一、前述 Spark中Shuffle文件的尋址是一個文件底層的管理機制，所以還是有必要了解一下的。二、架構圖三、基本概念： 1) MapOutputTracker MapOutputTracker是Spa

【Spark篇】---Spark中yarn模式兩種提交任務方式

一、前述Spark可以和Yarn整合，將Application提交到Yarn上執行，和StandAlone提交模式一樣，Yarn也有兩種提交任務的方式。二、具體 1、yarn-client提交任務方式配置在client節點配置中spark

【Spark篇】---Spark中Action運算元

一、前述 Action類運算元也是一類運算元（函式）叫做行動運算元，如foreach,collect，count等。Transformations類運算元是延遲執行，Action類運算元是觸發執行。一個application應用程式（就是我們編寫的一個應用程式）中有幾個Action類運算元執行，就有幾個job

【Spark篇】--Spark中Standalone的兩種提交模式

一、前述Spark中Standalone有兩種提交模式，一個是Standalone-client模式，一個是Standalone-master模式。二、具體 1、Standalone-client提交任務方式提交命令 ./spark-sub

【Spark篇】---Spark調優之代碼調優，數據本地化調優，內存調優，SparkShuffle調優，Executor的堆外內存調優

左右任務調度 combiner flight 觸發年齡 ans minor 序列化機制一、前述 Spark中調優大致分為以下幾種，代碼調優，數據本地化，內存調優，SparkShuffle調優，調節Executor的堆外內存。二、具體 1、代碼調優 1、避免創

【基礎篇】Mac中關於eclipse外掛配置的一些事兒

eclipse 安裝外掛有三種常見的方式：一、eclipse market，help/eclisep marketplace中搜索相關的外掛安裝，傻瓜式安裝二、手動安裝，獲取外掛的link，然後通過help/install new software手

【Spark篇】---SparkStreaming+Kafka的兩種模式receiver模式和Direct模式

一、前述 SparkStreamin是流式問題的解決的代表，一般結合kafka使用，所以本文著重講解sparkStreaming+kafka兩種模式。二、具體 1、Receiver模式原理圖： receiver模式理解：在SparkStreaming程式執行起來後，Executor中會有r

Flask 【第七篇】Flask中的wtforms使用

widget pass nco 自定義 wtforms csrf probably item 比較一、簡單介紹flask中的wtforms WTForms是一個支持多個web框架的form組件，主要用於對用戶請求數據進行驗證。安裝： pip3 install wtfo

【Keras篇】---利用keras改寫VGG16經典模型在手寫數字識別體中的應用

model類都是 ast 訓練樣本轉化一個 h5py 次梯度窗口一、前述 VGG16是由16層神經網絡構成的經典模型，包括多層卷積，多層全連接層，一般我們改寫的時候卷積層基本不動，全連接層從後面幾層依次向前改寫，因為先改參數較小的。二、具體 1、因為本文中代碼需

(轉)虛擬路由器冗余協議【原理篇】VRRP詳解

基礎上 vrrp 終端外網 targe 多少 res 虛擬 ini 原文：http://blog.51cto.com/zhaoyuqiang/1166840 為什麽要使用VRRP技術我們知道，為了實現不同子網之間的設備通信，需要配置路由。目前常用的指定路由方法有兩種

談談Nancy中讓人又愛又恨的Diagnostics【上篇】

base isa 但是 get sting erro for 就會一次原文:談談Nancy中讓人又愛又恨的Diagnostics【上篇】前言在Nancy中有個十分不錯的功能-Diagnostics，可以說這個功能讓人又愛又恨。或許我們都做過下面這樣的一些嘗試：

【待補充】Spark 集群模式 && Spark Job 部署模式

啟動 nbsp -s .cn 一個 sos ref 說明 www 0. 說明　　Spark 集群模式 && Spark Job 部署模式 1. Spark 集群模式　　[ Local ]　　使用一個 JVM 模擬 Spark 集群　

【線上直播】spark streaming高階特性在ndcg計算實踐

【線上直播】spark streaming高階特性在ndcg計算實踐 ▼ 嘉賓：王富平王富平簡介歷任百度大資料部高階工程師、1號店搜尋與精準化部門架構師，一直從事大資料方向的研發工作，對大資料工具、機器學習有深刻的認知，在實時計算領域經驗豐富，對stor

【線上直播】Spark對AI的支援及應用

講師：袁方講師簡介：目前就職於某大型知名智慧手機企業，對使用者畫像、推薦與廣告相關的大資料AI演算法方面有很深的研究。中山大學碩士畢業，曾在香港從事AI科研，主要研究方向為AI影象及音視訊處理。分享內容： 1. 瞭解Spark基本架構

【線上直播】Spark Streaming架構及實踐

講師：韓老師講師簡介：清華大學碩士畢業，擁有超過6年的大資料平臺研發經驗，目前就職於某知名電商大資料平臺團隊，負責異構資料交換及流式計算平臺的研發。熟悉hadoop及spark生態，對資料平臺整體技術架構及流式計算引擎有深入研究。分享大綱：流式計算應

【戶口篇】換房過程中，戶口怎麼遷移？

換房過程中，隨著房屋產權的變更，戶口面臨遷移的問題。一、賣舊房換新房戶口遷出（新房未到遷戶口時間）最常用的方法是：與買家協議遷戶時間延後，簽訂戶口遷出承諾書或支付遷戶保險金。如果屆時買家遷入，您會被擠掉成為當地派出所集體戶口。當然，也可以選擇在親戚朋友的房產上掛靠戶口。

【十五】Spark Streaming整合Kafka使用Direct方式（使用Scala語言）

官網介紹 Kafka提供了新的consumer api 在0.8版本和0.10版本之間。0.8的整合是相容0.9和0.10的。但是0.10的整合不相容以前的版本。這裡使用的整合是spark-streaming-kafka-0-8。官方文件配置SparkStrea

【問題小結】專案中遇到的問題小結篇(第一篇）

問題：使用openlayers3的ol.format.WKT類對ol.geom.Circle進行轉換，得到wkt描述傳入後臺進行處理時，chrome一直報錯（geometryEncoder should be defined ），如下：百度了一下，沒有

【Spark篇】---Spark中Transformations轉換算子

相關推薦