spark Transformations算子

阿新 • • 發佈：2019-04-02

red reac contain bool pipe for string esc arrays

在java中，RDD分為javaRDDs和javaPairRDDs。下面分兩大類來進行。

都必須要進行的一步。

SparkConf conf = new SparkConf().setMaster("local").setAppName("test");
JavaSparkContext sc = new JavaSparkContext(conf);

一。javaRDDs

 1         String[] ayys = {"a","b","c"};
 2         List<String> strings = Arrays.asList(ayys);
 
 3         
 4         JavaRDD<String> rdd1 = sc.parallelize(strings);
 5         strings.add("d");
 6         JavaRDD<String> rdd2 = sc.parallelize(strings);
 7 
 8 
 9         JavaRDD<Tuple2<String, Integer>> parallelize = sc.parallelize(Arrays.asList(
10                 new 
 Tuple2<String, Integer>("asd", 11),
11                 new Tuple2<String, Integer>("asd", 11),
12                 new Tuple2<String, Integer>("asd", 11)
13         ));
14 
15         rdd1.map(new Function<String, String>() {
16             public String call(String s) throws 
 Exception {
17                 return s.replace("a","qqq");
18             }
19         }).foreach(new VoidFunction<String>() {
20             public void call(String s) throws Exception {
21                 System.out.println(s);
22             }
23         });
24 
25 
26         List<String> a = rdd1.filter(new Function<String, Boolean>() {
27             public Boolean call(String s) throws Exception {
28                 return s.contains("a");
29             }
30         }).collect();
31 
32         System.out.println(a);
33 
34         JavaRDD<String> rdd22 = rdd1.flatMap(new FlatMapFunction<String, String>() {
35             public Iterable<String> call(String s) throws Exception {
36                 return Arrays.asList(s.split(" "));
37             }
38         });
39 
40         JavaPairRDD<String, Integer> rdd4 = rdd2.mapToPair(new PairFunction<String, String, Integer>() {
41             public Tuple2<String, Integer> call(String s) throws Exception {
42                 return new Tuple2<String, Integer>(s, 1);
43             }
44         });
45 
46          JavaRDD<String> rdd11 = rdd2.mapPartitions(new FlatMapFunction<Iterator<String>, String>() {
47             public Iterable<String> call(Iterator<String> stringIterator) throws Exception {
48                 ArrayList<String> strings = new ArrayList<String>();
49                 while (stringIterator.hasNext()){
50                     strings.add(stringIterator.next());
51                 }
52                 return strings;
53             }
54         });
55 
56         JavaRDD<String> stringJavaRDD = rdd1.mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {
57             public Iterator<String> call(Integer integer, Iterator<String> stringIterator) throws Exception {
58                 ArrayList<String> strings = new ArrayList<String>();
59                 while (stringIterator.hasNext()){
60                     strings.add(stringIterator.next());
61                 }
62                 return strings.iterator();
63             }
64         },false);
65 
66         JavaRDD<String> sample = rdd1.sample(false, 0.3);
67 
68         JavaRDD<String> union = rdd1.union(rdd2);
69 
70         JavaRDD<String> intersection = rdd1.intersection(rdd2);
71 
72         JavaRDD<String> distinct = rdd1.distinct();

二。JavaPairRDDs.

        JavaPairRDD<String, Integer> rdd1 = sc.parallelizePairs(Arrays.asList(
                new Tuple2<String, Integer>("asd", 111),
                new Tuple2<String, Integer>("asd", 111),
                new Tuple2<String, Integer>("asd", 111)
        ));

        JavaPairRDD<String, Integer> rdd2 = sc.parallelizePairs(Arrays.asList(
                new Tuple2<String, Integer>("sdfsd", 222),
                new Tuple2<String, Integer>("sdfsd", 222),
                new Tuple2<String, Integer>("sdfsd", 222)
        ));

        JavaPairRDD<String, Iterable<Integer>> stringIterableJavaPairRDD = rdd1.groupByKey();

        JavaPairRDD<String, Integer> rdd = rdd1.reduceByKey(new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer + integer2;
            }
        });

        JavaPairRDD<String, Integer> rdd3 = rdd1.aggregateByKey(0, new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return max(integer,integer2);
            }
        }, new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer + integer2;
            }
        });

        JavaPairRDD<String, Integer> rdd111 = rdd1.sortByKey();

        JavaPairRDD<String, Tuple2<Integer, Integer>> join = rdd1.join(rdd2);
        JavaPairRDD<String, Tuple2<Integer, Optional<Integer>>> stringTuple2JavaPairRDD = rdd1.leftOuterJoin(rdd2);
        JavaPairRDD<String, Tuple2<Optional<Integer>, Integer>> stringTuple2JavaPairRDD1 = rdd1.rightOuterJoin(rdd2);
        JavaPairRDD<String, Tuple2<Optional<Integer>, Optional<Integer>>> stringTuple2JavaPairRDD2 = rdd1.fullOuterJoin(rdd2);

        JavaPairRDD<String, Tuple2<Iterable<Integer>, Iterable<Integer>>> cogroup = rdd1.cogroup(rdd2);

        JavaPairRDD<String, Integer> coalesce = rdd1.coalesce(3, false);

        JavaPairRDD<String, Integer> repartition = rdd1.repartition(3);

        JavaPairRDD<String, Integer> rdd5 = rdd1.repartitionAndSortWithinPartitions(new HashPartitioner(2));

        JavaPairRDD<Tuple2<String, Integer>, Tuple2<String, Integer>> cartesian = rdd1.cartesian(rdd2);

        JavaRDD<String> pipe = rdd1.pipe("");

最後都要加上

        sc.stop();

aggregateByKey算子詳解

repartitionAndSortWithinPartitions算子詳解

spark Transformations算子

red reac contain bool pipe for string esc arrays 在java中，RDD分為javaRDDs和javaPairRDDs。下面分兩大類來進行。都必須要進行的一步。 SparkConf conf = new SparkCo

Spark RDD算子實戰

大數據 Spark RDD 算子 [TOC] Spark算子概述 RDD：彈性分布式數據集，是一種特殊集合、支持多種來源、有容錯機制、可以被緩存、支持並行操作，一個RDD代表多個分區裏的數據集。 RDD有兩種操作算子： Transformation（轉換）：Transformati

spark join算子

set @override serial reac cep auth bsp 學生 call java 1 /** 2 *join算子是根據兩個rdd的key進行關聯操作,類似scala中的拉鏈操作,返回的新元素為<key,value>,一對一 3

Java8函數式編程（二）：類比Spark RDD算子的Stream流操作

編程方式 min 也有 ffffff 種類 spa 封裝方法都是 1 Stream流對集合進行叠代時，可調用其iterator方法，返回一個iterator對象，之後便可以通過該iterator對象遍歷集合中的元素，這被稱為外部叠代（for循環本身正是封裝了其的語法糖

Spark-RDD算子

output ask 配置 carte 說明 oop 2.0 模擬 bin Spark課堂筆記 Spark生態圈： Spark Core ： RDD（彈性分布式數據集） Spark SQL Spark Streaming Spark MLLib：協同過濾，A

【Spark】RDD操作具體解釋4——Action算子

() sim comment cat zed ret form sdn order 本質上在Actions算子中通過SparkContext運行提交作業的runJob操作，觸發了RDD DAG的運行。依據Action算子的輸出空間將Action算子進

Spark 算子

off 數據 toa 內部實現 vbs literal 目錄 part 行動 RDD算子分類，大致可以分為兩類，即： Transformation：轉換算子，這類轉換並不觸發提交作業，完成作業中間過程處理。 Action：行動算子，這類算子會觸發SparkConte

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark算子

oop lan blank data lookup style lec 鍵值轉換 flat Spark算子：RDD基本轉換操作(1)–map、flagMap、distinct Spark算子：RDD創建操作 Spark算子：RDD基本轉換操作(2)–coalesce、rep

淺談Spark算子

oss qrc com 類型 guide sha spa ng- align RDD的操作類型分為兩類：? Transformation，根據原有的RDD創建一個新的RDD? actions，對RDD操作後把結果返回給driver Transfrmation操作是延遲的，

java-spark的各種常用算子的寫法

SM 接下來自定義 sca length spark owa 轉換得到通常寫spark的程序用scala比較方便，畢竟spark的源碼就是用scala寫的。然而，目前java開發者特別多，尤其進行數據對接、上線服務的時候，這時候，就需要掌握一些spark在ja

Spark算子之aggregateByKey詳解

all item bubuko 最大 name rest map com class 一、基本介紹 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函數是初始值 3代表每次分完組之後的每個組的初始值。 seqFunc代表combi

Spark mapPartitions 及mapPartitionsWithIndex算子

tor strong sca ole UNC 耗時 con spa ont mapPartitions 與map類似，map函數是應用到每個元素，而mapPartitions的輸入函數是每個分區的數據，把每個分區中的內容作為整體來處理的。當map裏面有比較耗時的初始化操

Spark常用的transformation算子

遍歷假設每一個 imp 表示腳本 cti 並且 var 1.map 和 mapPartitions map的輸入變換函數應用於RDD中所有元素，而mapPartitions應用於所有分區。區別於mapPartitions主要在於調用粒度不同。mapPartition可

Spark的transformation和action算子簡介

一個算子 filter true 組成實現並行 ont key transformation算子 map(func) 返回一個新的分布式數據集，由每個原元素經過func函數處理後的新元素組成 filter(func) 返回一個新的數據集，由經過func函數處理後返回

Spark 常用Action算子

cti data lock sys exception arrays text reduce color Java版 1 package com.huanfion.Spark; 2 3 import org.apache.spark.SparkConf; 4

spark記錄（3）spark算子之Transformation

ace 使用 ble pan 寫入 1.2 插入 get .text 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1　map map十分容易理解，他是將源JavaRDD的一個一個元素的傳入call方法，並經過算

spark記錄（4）spark算子之Action

lac atm ide replace action ret 加載再次 col Action類算子也是一類算子（函數）叫做行動算子，如foreach,collect，count等。Transformations類算子是延遲執行，Action類算子是觸發執行。一個appli

spark記錄（0）SparkStreaming算子操作

top 單詞 operation upd cor ins 參數 arc 奇數 1 foreachRDD output operation算子,必須對抽取出來的RDD執行action類算子，代碼才能執行。代碼：見上個隨筆例子 2 transform tr

Spark 常用的 Transformation 算子示例 ===> Java 版

功能 res 排序。 eve bool args pair slist col import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.

spark Transformations算子

相關推薦