Spark 常用Action算子

阿新 • • 發佈：2019-02-15

cti data lock sys exception arrays text reduce color

Java版

 1 package com.huanfion.Spark;
 2 
 3 import org.apache.spark.SparkConf;
 4 import org.apache.spark.api.java.JavaPairRDD;
 5 import org.apache.spark.api.java.JavaRDD;
 6 import org.apache.spark.api.java.JavaSparkContext;
 7 import org.apache.spark.api.java.function.Function2;
 8 import scala.Tuple2;
 
 9 
10 import java.util.Arrays;
11 import java.util.List;
12 import java.util.Map;
13 
14 public class ActionJava {
15     public static JavaSparkContext getsc() {
16         SparkConf conf = new SparkConf().setAppName("action").setMaster("local");
17         return new JavaSparkContext(conf);
18     }
 
19 
20     public static void main(String[] args) {
21 //        reduce();
22 //        collect();
23 //        count();
24 //        take();
25         countByKey();
26     }
27 
28     public static void reduce() {
29         List list = Arrays.asList(1, 2, 3, 4);
30         JavaRDD<Integer> rdd = getsc().parallelize(list);
 
31         int reducevalue = rdd.reduce(new Function2<Integer, Integer, Integer>() {
32             @Override
33             public Integer call(Integer v1, Integer v2) throws Exception {
34                 return v1 + v2;
35             }
36         });
37         System.out.println(reducevalue);
38     }
39 
40     public static void collect() {
41         List list = Arrays.asList(1, 2, 3, 4);
42         JavaRDD<Integer> rdd = getsc().parallelize(list);
43         System.out.println(rdd.collect());
44     }
45 
46     public static void save() {
47         List list = Arrays.asList(1, 2, 3, 4);
48         JavaRDD<Integer> rdd = getsc().parallelize(list);
49         rdd.saveAsTextFile("hdfs://");//此處的hdfs目錄路徑必須存在
50     }
51 
52     public static void count() {
53         List list = Arrays.asList(1, 2, 3, 4);
54         JavaRDD<Integer> rdd = getsc().parallelize(list);
55         System.out.println(rdd.count());
56     }
57 
58     public static void take() {
59         List list = Arrays.asList(1, 2, 3, 4);
60         JavaRDD<Integer> rdd = getsc().parallelize(list);
61         List<Integer> takevalue = rdd.take(2);
62         System.out.println(takevalue);
63     }
64 
65     public static void countByKey() {
66         List list = Arrays.asList(new Tuple2<>("class_1", 91),
67                 new Tuple2<>("class_2", 78),
68                 new Tuple2<>("class_1", 99),
69                 new Tuple2<>("class_2", 76),
70                 new Tuple2<>("class_2", 90));
71         JavaPairRDD<String, Integer> rdd = getsc().parallelizePairs(list);
72         Map<String, Long> values = rdd.countByKey();
73         values.forEach((x, y) -> System.out.println(x + ":" + y));
74     }
75 }

Scala版本

package com.huanfion.Spark
 
import org.apache.spark.{SparkConf, SparkContext}
 
object ActionScala {
  def getsc: SparkContext = {
    val sparkconf = new SparkConf().setAppName("action").setMaster("local")
    new SparkContext(sparkconf)
  }
 
  def main(args: Array[String]): Unit = {
    //    reduce
    //    count
    //    collect
//    take
    countByKey
  }
 
  def reduce = {
    val list = Array(1, 2, 3, 4)
    val rdd = getsc.parallelize(list)
    System.out.println(rdd.reduce(_ + _))
  }
 
  def count = {
    val list = Array(1, 2, 3, 4)
    val rdd = getsc.parallelize(list)
    System.out.println(rdd.count())
  }
 
  def collect = {
    val list = Array(1, 2, 3, 4)
    val rdd = getsc.parallelize(list)
    val value = rdd.collect();
    value.foreach(x => System.out.println(x))
  }
 
  def take = {
    val list = Array(1, 2, 3, 4)
    val rdd = getsc.parallelize(list)
    val value=rdd.take(2)
    value.foreach(x=>System.out.println(x))
  }
  def countByKey={
    val list = Array(new Tuple2("class_1", 91),
      Tuple2("class_2", 78),
      Tuple2("class_1", 99),
      Tuple2("class_2", 76),
      Tuple2("class_2", 90));
    val rdd=getsc.parallelize(list)
    val countvalue=rdd.countByKey()
    countvalue.foreach(x=>System.out.println(x._1+":"+x._2))
  }
}

Spark 常用Action算子

cti data lock sys exception arrays text reduce color Java版 1 package com.huanfion.Spark; 2 3 import org.apache.spark.SparkConf; 4

【Spark】RDD操作具體解釋4——Action算子

() sim comment cat zed ret form sdn order 本質上在Actions算子中通過SparkContext運行提交作業的runJob操作，觸發了RDD DAG的運行。依據Action算子的輸出空間將Action算子進

Spark的transformation和action算子簡介

一個算子 filter true 組成實現並行 ont key transformation算子 map(func) 返回一個新的分布式數據集，由每個原元素經過func函數處理後的新元素組成 filter(func) 返回一個新的數據集，由經過func函數處理後返回

Spark常用action運算元操作 —— Java版

collect運算元 package rddDemo.action; import org.apache.spark.SparkConf ; import org.apache.spark.api.java.JavaRDD; import org.apache.sp

java-spark的各種常用算子的寫法

SM 接下來自定義 sca length spark owa 轉換得到通常寫spark的程序用scala比較方便，畢竟spark的源碼就是用scala寫的。然而，目前java開發者特別多，尤其進行數據對接、上線服務的時候，這時候，就需要掌握一些spark在ja

Spark常用的transformation算子

遍歷假設每一個 imp 表示腳本 cti 並且 var 1.map 和 mapPartitions map的輸入變換函數應用於RDD中所有元素，而mapPartitions應用於所有分區。區別於mapPartitions主要在於調用粒度不同。mapPartition可

spark記錄（4）spark算子之Action

lac atm ide replace action ret 加載再次 col Action類算子也是一類算子（函數）叫做行動算子，如foreach,collect，count等。Transformations類算子是延遲執行，Action類算子是觸發執行。一個appli

Spark 常用的 Transformation 算子示例 ===> Java 版

功能 res 排序。 eve bool args pair slist col import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.

Spark 算子

off 數據 toa 內部實現 vbs literal 目錄 part 行動 RDD算子分類，大致可以分為兩類，即： Transformation：轉換算子，這類轉換並不觸發提交作業，完成作業中間過程處理。 Action：行動算子，這類算子會觸發SparkConte

python數字圖像處理（三）邊緣檢測常用算子

lin tco lap def ood 獲得 iou keep 算法在該文將介紹基本的幾種應用於邊緣檢測的濾波器,首先我們讀入saber用來做為示例的圖像 #讀入圖像代碼,在此之前應當引入必要的opencv matplotlib numpy saber = cv2.imr

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark算子

oop lan blank data lookup style lec 鍵值轉換 flat Spark算子：RDD基本轉換操作(1)–map、flagMap、distinct Spark算子：RDD創建操作 Spark算子：RDD基本轉換操作(2)–coalesce、rep

淺談Spark算子

oss qrc com 類型 guide sha spa ng- align RDD的操作類型分為兩類：? Transformation，根據原有的RDD創建一個新的RDD? actions，對RDD操作後把結果返回給driver Transfrmation操作是延遲的，

大數據筆記（二十九）——RDD簡介、特性及常用算子

contex mce true UC 步驟 rac rep enc 測試 1、什麽是RDD？最核心（*）彈性分布式數據集，Resilent distributed DataSet （*）Spark中數據的基本抽象（*）結合源碼，查看RDD的概念 RDD屬性

Spark RDD算子實戰

大數據 Spark RDD 算子 [TOC] Spark算子概述 RDD：彈性分布式數據集，是一種特殊集合、支持多種來源、有容錯機制、可以被緩存、支持並行操作，一個RDD代表多個分區裏的數據集。 RDD有兩種操作算子： Transformation（轉換）：Transformati

Spark算子之aggregateByKey詳解

all item bubuko 最大 name rest map com class 一、基本介紹 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函數是初始值 3代表每次分完組之後的每個組的初始值。 seqFunc代表combi

Spark mapPartitions 及mapPartitionsWithIndex算子

tor strong sca ole UNC 耗時 con spa ont mapPartitions 與map類似，map函數是應用到每個元素，而mapPartitions的輸入函數是每個分區的數據，把每個分區中的內容作為整體來處理的。當map裏面有比較耗時的初始化操

Spark常用函式講解之Action操作+例項

RDD：彈性分散式資料集，是一種特殊集合 ‚ 支援多種來源 ‚ 有容錯機制 ‚ 可以被快取 ‚ 支援並行操作，一個RDD代表一個分割槽裡的資料集RDD有兩種操作運算元： Transformatio

spark join算子

set @override serial reac cep auth bsp 學生 call java 1 /** 2 *join算子是根據兩個rdd的key進行關聯操作,類似scala中的拉鏈操作,返回的新元素為<key,value>,一對一 3

spark常用函式：transformation和action

1、RDD提供了兩種型別的操作：transformation和action 所有的transformation都是採用的懶策略，如果只是將transformation提交是不會執行計算的，計算只有在action被提交的時候才被觸發。 1）transformation操作：得

Spark 常用Action算子

相關推薦