Spark Transformation —— flatMap運算元

阿新 • • 發佈：2019-01-07

flatMap(func)

類似於map，但是每一個輸入元素，會被對映為0到多個輸出元素（因此，func函式的返回值是一個Seq，而不是單一元素）返回的有點類似於集合的概念，把list，或者array的元素都抽出來，組成一個集合。

第一步和map一樣，最後將所有的輸出分割槽合併成一個。

程式碼測試

測試資料準備

在hdfs上放一個檔案1.txt
這裡寫圖片描述
開啟spark-shell

spark-shell --master spark://master:7077(重要的事情說多遍，spark-shell和spark-submit核心的引數是差不多的)

建立RDD

var 
 data = sc.textFile("/qgzang/1.txt")

這裡寫圖片描述

測試flatMap

使用flatMap運算元

 var flatMapResult = data.flatMap(line => line.split("\\s+"))

這裡寫圖片描述

運算flatMap運算元結果

flatMapResult.collect()

這裡寫圖片描述

使用注意事項

flatMap會將字串看成是一個字元陣列。

scala> data.map(_.toUpperCase).collect
res32: Array[String] = Array(HELLO WORLD, HELLO SPARK, HELLO HIVE, HI SPARK)
scala> data.flatMap(_.toUpperCase).collect
res33: 
 Array[Char] = Array(H, E, L, L, O,  , W, O, R, L, D, H, E, L, L, O,  , S, P, A, R, K, H, E, L, L, O,  , H, I, V, E, H, I,  , S, P, A, R, K)

這裡寫圖片描述

原理圖

這裡寫圖片描述

將原來RDD中的每個元素通過函式 f 轉換為新的元素，並將生成的RDD的每個集合中的元素合併為一個集合。內部建立FlatMappedRDD(this，sc.clean(f))。
圖中，小方框表示RDD的一個分割槽，對分割槽進行flatMap函式操作，flatMap中傳入的函式為 f : T->U，T和U可以是任意的資料型別。將分割槽中的資料通過使用者自定義函式f轉換為新的資料。外部大方框可以認為是一個RDD分割槽，小方框代表一個集合。 V1、 V2、 V3在一個集合作為RDD的一個數據項，轉換為V’1、 V’2、 V’3後，將結合拆散，形成為RDD中的資料項。

原始碼

/**
 *  Return a new RDD by first applying a function to all elements of this
 *  RDD, and then flattening the results.
 */
def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = {
  val cleanF = sc.clean(f)
  new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))
}

Spark Transformation —— flatMap運算元

flatMap(func) 類似於map，但是每一個輸入元素，會被對映為0到多個輸出元素（因此，func函式的返回值是一個Seq，而不是單一元素）返回的有點類似於集合的概念，把list，或者array的元素都抽出來，組成一個集合。第一步和map一樣，最

spark transformation和action運算元

spark transformation和action的運算元 map(func) 返回一個新的分散式資料集，由每個原元素經過func函式處理後的新元素組成 filter(func) 返回一個新的資料集，由經過func函式處理後返回值為true的原元素組

Spark Transformation和Action運算元速查表

Transformation運算元 Transformation運算元作用 map(func) 返回一個新的分散式資料集，其中每個元素都是由源RDD中每一個元素經過fun

spark Transformation 運算元

map(func) 通過函式func傳遞源的每個元素來形成一個新的分散式資料集 val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.map(x=>(x._1+x._2)).forea

spark中flatMap函數用法--spark學習（基礎）

比較一次 ica 例子 tail details word fix spark spark中flatMap函數用法--spark學習（基礎）在spark中map函數和flatMap函數是兩個比較常用的函數。其中 map：對集合中每個元素進行操作。 fl

spark RDD常用運算元（一）

- filter 演算法解釋 filter 函式功能是對元素進行過濾，對每個元素應用 f 函數，返回值為 true 的元素在RDD 中保留，返回值為 false 的元素將被過濾掉。內部實現相當於生成 FilteredRDD

Spark- Transformation實戰

Scala- Transformation實戰 package cn.rzlee.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object

spark RDD常用運算元（三）

- first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue、lookup 演算法解釋 first：返回第一個元素 take：rdd.t

spark RDD常用運算元（二）

- reduceByKey 演算法解釋 reduceByKey 是比 combineByKey 更簡單的一種情況，只是兩個值合併成一個值，（ Int， Int V）to （Int， Int C），比如疊加。所以 createCombiner reduceBykey 很簡

spark map flatMap

使用說明在使用時map會將一個長度為N的RDD轉換為另一個長度為N的RDD；而flatMap會將一個長度為N的RDD轉換成一個N個元素的集合，然後再把這N個元素合成到一個單個RDD的結果集。比如一個包含三行內容的資料檔案“word.md”。 a a b c 經過以下轉換過程

Spark基礎 -- Spark Shell -- RDD -- 運算元

Spark基礎 – Spark Shell – RDD – 運算元文章目錄 Spark基礎 -- Spark Shell -- RDD -- 運算元一、簡介二、Spark 1.6.3部署

Spark之RDD運算元-轉換運算元

RDD-Transformation 轉換（Transformation）運算元就是對RDD進行操作的介面函式，其作用是將一個或多個RDD變換成新的RDD。使用Spark進行資料計算，在利用建立運算元生成RDD後，資料處理的演算法設計和程式編寫的最關鍵部分，就是利用

spark streaming DStream運算元大全

DStream作為spark 流處理的資料抽象，有三個主要的特徵: 1.依賴的DStream的列表 2.DStream生成RDD的時間間隔 3.用來生成RDD的方法本篇pom.xml檔案spark streaming版本為1.6.0 目錄 window() reduce

spark中常用運算元含義及區別

Transform: 1. map:rdd中的每項資料進行map裡的操作後，會形成一個個新的元素的新rdd flatMap:在map的基礎上進行扁平化，形成一個新的rdd 2. distinct:轉換操作，去重 filter:對rdd中的元素進行過濾 filt

Spark troubleshooting 1運算元返回null錯誤 2錯誤持久化以及checkpoint

一、運算元返回為null 問題在有些運算元函式裡，我們都需要有返回值。但是，有些可能不需要返回值，但是這時候不能直接返回null,返回null將會導致錯誤 Scala.Math(NULL) //異常解決方法如果不想有返回值，可以在返回的時候，返回一些特殊的值

Spark RDD Cache運算元的作用

我們經常會對RDD執行一系列Transformation運算元操作，邏輯上每經歷一次變換，就會將RDD轉換為一個新的RDD，RDD會被劃分成很多的分割槽分佈到叢集的多個節點中。分割槽是邏輯概念，為了防止函式式資料不可變行（immutable）導致的記憶體需

跟天齊老師學Spark（6）--Spark的常用運算元介紹

spark的常用運算元介紹： Resilient（彈性且可復原） Distributed（分散式） Datasets（資料集） (RDDs) 我們以前學的scala的原生方法都是陣列或者集合上定義的，它只能操作單機。而spark中的方法都是定義在RDD上的，它們操作的是叢

spark中flatMap函式用法--spark學習（基礎）

說明在spark中map函式和flatMap函式是兩個比較常用的函式。其中 map：對集合中每個元素進行操作。 flatMap：對集合中每個元素進行操作然後再扁平化。理解扁平化可以舉個簡單例子 val arr=sc.parallelize(Ar

spark中flatMap函式用法

說明在spark中map函式和flatMap函式是兩個比較常用的函式。其中 map：對集合中每個元素進行操作。 flatMap：對集合中每個元素進行操作然後再扁平化。理解扁平化可以舉個簡單例子 val arr=sc.parallelize(Array(("A",1)

Spark之Action運算元（一）

Spark運算元分為兩大類，本文介紹Action類運算元。（1）reduce運算元按照官網的解釋，傳入的引數是一個函式，一個雙引數，返回值唯一的函式，建議，該函式是可交換的，是可聯合的，如此，才能實現正確的平行計算。這裡的函式，我平時用過加法操作，最大值操作，最小值操作；記得

Spark Transformation —— flatMap運算元

flatMap(func)

程式碼測試

測試資料準備

測試flatMap

使用注意事項

原理圖

原始碼

相關推薦