Spark程式設計指南之二：向Spark運算元傳遞函式

阿新 • • 發佈：2018-12-23

文章目錄

向Spark運算元傳遞函式

Java的兩種方法

匿名內部類
建立類實現Function介面

Scala的兩種方法

傳遞匿名函式
定義全域性單例物件中的靜態方法

接上一篇文章，SparkRDD運算元接收的都是函式，如filter、map、flatmap等都是接收的匿名函式。

向Spark運算元傳遞函式

Java的兩種方法

匿名內部類

如前一篇文章中

JavaRDD<String> filterRDD = 
 textFileRDD.filter(new Function<String, Boolean>() {
            @Override
            public Boolean call(String s) throws Exception {
                return s.contains("spark"); //返回帶有"spark"內容的行。
            }
        });

建立類實現Function介面

如果方法比較複雜，可以獨立建立類，這裡只做示例

public class LearnSpark 
 {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("LearnSpark").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD textFileRDD = sc.textFile("in/README.md");
        JavaRDD<String> filterRDD = textFileRDD. 
filter(new GetSpark());
        System.out.println("包含spark的行數:"+ filterRDD.count());
    }
    static class GetSpark implements Function<String, Boolean> {
        public Boolean call(String s) {
            return s.contains("spark");
        }
    }
}

Scala的兩種方法

傳遞匿名函式

val filterRDD = textFileRDD.filter(line => line.contains("spark"))

定義全域性單例物件中的靜態方法

val filterRDD2 = textFileRDD.filter(GetSpark.fun1)

定義全域性單例物件中的靜態方法GetSpark.fun1

  object GetSpark{
    def fun1(s:String):Boolean = s.contains("spark")
  }

Spark程式設計指南之二：向Spark運算元傳遞函式

文章目錄向Spark運算元傳遞函式 Java的兩種方法匿名內部類建立類實現Function介面 Scala的兩種方法傳遞匿名函式定義全域性單例物件中的靜態方法

Spark程式設計指南之三：RDD基本概念

RDD是什麼？ RDD(Resilient Distributed Dataset)，彈性分散式資料集，是Spark的核心資料結構抽象。它是彈性的，具有容錯能力，能夠重新計算失敗結點。它是分散式的，資料分佈在多個結點上。它是一個數據集，可以從外部載入資料，可以是文字檔案，JSON，

Spark程式設計指南之四：Spark分散式叢集模式的執行時系統架構

文章目錄官方叢集模式介紹 Cluster Manager有哪些？ Standalone Apache Mesos Hadoop YARN Kubernetes Standalone模

spark學習筆記之二：寬依賴和窄依賴

1.如果父RDD裡的一個partition只去向一個子RDD裡的partition為窄依賴，否則為寬依賴（只要是shuffle操作）。 2.spark根據運算元判斷寬窄依賴：窄依賴：map

RabbitMQ指南之二：工作隊列（Work Queues）

chan 需要講解 nts rec 並行化之一 RoCE edge 原文:RabbitMQ指南之二：工作隊列（Work Queues）　　在上一章的指南中，我們寫了一個命名隊列：生產者往該命名隊列發送消息、消費從從該命名隊列中消費消息。在本章中，我們將創建一個工作隊

RabbitMQ指南之二：工作佇列（Work Queues）

在上一章的指南中，我們寫了一個命名佇列：生產者往該命名佇列傳送訊息、消費從從該命名佇列中消費訊息。在本章中，我們將建立一個工作佇列

Spark程式設計指南入門之Java篇二-基本操作

4. RDD的操作 4.1 基本操作 RDD有2種類型的操作，一種是轉換transformations，它基於一個存在的資料集創建出一個新的資料集；另一種是行動actions，它通過對一個存在的資料集進行運算得出結果。例如，map方法是轉換操作，它將資料集的每一個元素按指定

hive程式設計指南學習筆記之二：hive資料庫及其中的表查詢

show databases; /*

Kubernetes與大資料之二：編譯並執行基於Scalar的Spark程式WordCount

一、前言通過SBT編譯scala程式然後在Kubernetes使用Spark執行WordCount任務。轉載自https://blog.csdn.net/cloudvtech 二、安裝環境和編譯 2.1 安裝SBT mv bintray-sbt-rpm

Spark程式設計指南之一：transformation和action等RDD基本操作

文章目錄基本概念開發環境程式設計實戰初始化SparkContext RDD的生成 RDD基本操作 Key-Value Pairs Transformations f

Spark程式設計指南入門之Java篇一-基本知識

1. Spark的Java開發包 Spark提供Java的開發包，當前最新版本是2.0.2版本：spark-core_2.11-2.0.2.jar，可以從下面連結下載： http://central.maven.org/maven2/org/apache/spark/spa

Spark2.1.0文件：Spark程式設計指南-Spark Programming Guide

1 概述從一個較高的層次來看，每一個 Spark 應用程式由兩部分組成：driver program（驅動程式）端執行的 main 函式以及在整個叢集中被執行的各種並行操作。Spark 提供的主要抽象是一個彈性分散式資料集（RDD），它是可以被並行處理且跨節點分佈的元素的

Spark 入門之二：Spark RDD詳解

RDD的容錯機制實現分散式資料集容錯方法有兩種：資料檢查點和記錄更新RDD採用記錄更新的方式：記錄所有更新點的成本很高。所以，RDD只支援粗顆粒變換，即只記錄單個塊上執行的單個操作，然後建立某個RDD的變換序列（血統）儲存下來；變換序列指，每個RDD都包含了他是如何由其他RDD變換過來的以及如何重建某一塊資料

Spark Programming Guide (Python) Spark程式設計指南 (二)

對部分內容有修改，恕本人水平有限，如有錯誤，在所難免。 PySpark程式設計指南(譯)： 1. 概述： a) 從高層次上來看，每一個Spark應用都包含一個驅動程式，用於執行使用者的main函式以及在叢集上執行各種並行操作。Spark提供的主要抽象是彈性分散式資

Spark文件閱讀之二：Programming Guides - Quick Start

Quick Start: https://spark.apache.org/docs/latest/quick-start.html 在Spark 2.0之前，Spark的程式設計介面為RDD (Resilient Distributed Dataset)。而在2.0之後，RDDs被D

spark定制之五：使用說明

建表 pan schemardd 特性 -s map data div popu 背景 spark-shell是一個scala編程解釋運行環境，能夠通過編程的方式處理邏輯復雜的計算，但對於簡單的類似sql的數據處理，比方分組求和，sql為”selec

Unix環境程式設計之二：檔案描述符、開啟檔案表、v節點關係詳解

一、檔案描述符概念 Linux 系統中，把一切都看做是檔案，當程序開啟現有檔案或建立新檔案時，核心向程序返回一個檔案描述符，檔案描述符就是核心為了高效管理已被開啟的檔案所建立的索引，用來指向被開啟的檔案，所有執行I/O操作的系統呼叫都會通過檔案描述符。二、檔案

Python貓薦書系統之二：《Python最佳實踐指南》

在介紹今天的書目之前，我想先跟大家介紹一下這個薦書系列。本系列打算聚焦Python領域的書籍，初期選書的標準主要有兩條：一是要有中文版，二是要有免費開源的線上資源，原因很簡單，技術書籍由於其特殊性，線上閱讀的體驗是最佳的，不管是排版、獲取原始碼、摘錄筆記還是分享交流，

《Spark 官方文件》Spark程式設計指南

概述總體上來說，每個Spark應用都包含一個驅動器（driver）程式，驅動器執行使用者的main函式，並在叢集上執行各種並行操作。 Spark最重要的一個抽象概念就是彈性分散式資料集（resilient distributed dataset – RDD），RDD是一個可分割槽的元素集合，其包含的元素可

【Java併發程式設計】之二十：併發新特性—Lock鎖和條件變數（含程式碼）

簡單使用Lock鎖 Java 5中引入了新的鎖機制——java.util.concurrent.locks中的顯式的互斥鎖：Lock介面，它提供了比synchronized更加廣泛的鎖定操作。Lock介面有3個實現它的類：ReentrantLock、Reetrant

Spark程式設計指南之二：向Spark運算元傳遞函式

文章目錄

向Spark運算元傳遞函式

Java的兩種方法

匿名內部類

建立類實現Function介面

Scala的兩種方法

傳遞匿名函式

定義全域性單例物件中的靜態方法

相關推薦