spark中map和flatmap之間的區別

阿新 • • 發佈：2019-01-11

map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。

flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成新的RDD,這樣就得到了一個由各列表中的元素組成的RDD,而不是一個列表組成的RDD。

有些拗口，看看例子就明白了。

val rdd = sc.parallelize(List("coffeepanda","happy panda","happiest panda party"))

輸入：

rdd.map(x=>x).collect

結果：

res9: Array[String] = Array(coffee panda, happy panda,happiest panda party)

輸入：

rdd.flatMap(x=>x.split(" ")).collect

結果

res8: Array[String] = Array(coffee, panda, happy,panda, happiest, panda, party)

flatMap說明白就是先map然後再flat，再來看個例子：

val rdd1 = sc.parallelize(List(1,2,3,3))

scala> rdd1.map(x=>x+1).collect

res10: Array[Int] = Array(2, 3, 4, 4)

scala> rdd1.flatMap(x=>x.to(3)).collect

res11: Array[Int] = Array(1, 2, 3, 2, 3, 3, 3)

點到為止版:flatMap = flatten + map;

深坑版: 就是自函子範疇上的一個協變函子的態射函式與自然變換的組合!

var li=List(1,2,3,4)

var res =li.flatMap(x=> x match {

case 3=> List(3.1,3.2)

case _=>List(x*2)

})

println(res)

li= List(1,2,3,4)

var res2 =li.map(x=> x match {

case 3=>List(3.1,3.2)

case _=>x*2

})

println(res2)

//output=>

List(2,4, 3.1,3.2, 8)

List(2,4, List(3.1,3.2), 8)

Program exited.

這個過程就像是先map, 然後再將 map 出來的這些列表首尾相接 (flatten).

【本文非博主原創，原文連結：http://blog.csdn.net/u013063153/article/details/53304087】

spark中map和flatmap之間的區別

map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成新的RDD,這樣就得到了一個由各列表中的元素組成的RDD,而不是一個列表組成的RDD。有些拗口，看看例子就明白了。 val

Spark中map和flatMap的區別

Map和flatMap的區別 Transformation 含義 map(func) 返回一個新的RDD,該RDD由每一個輸入元素經過func函式轉換後組成 flatMap(func) 類似於map,但是每一個輸入元素可以被對映為0或多個輸出

spark 中map 和flatmap 的區別

需求背景：統計相鄰兩個單詞出現的次數。 val s="A;B;C;D;B;D;C;B;D;A;E;D;C;A;B" s: String = A;B;C;D;B;D;C;B;D;A;E;D;C;A;B val data=sc.parallelize(Seq(s)

Spark學習筆記 --- Spark中Map和FlatMap轉換的區別

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

java8中 map和flatmap的共同點和區別，以及兩者的例項解析

在函式式語言中，函式作為一等公民，可以在任何地方定義，在函式內或函式外，可以作為函式的引數和返回值，可以對函式進行組合。由於指令式程式設計語言也可以通過類似函式指標的方式來實現高階函式，函式式的最主要的好處主要是不可變性帶來的。沒有可變的狀態，函式就是引用透明（Referen

JavaScript中Map和ForEach的區別

get 新的 create line 速度對比圖片技術分享其中原來譯者按：慣用Haskell的我更愛map。原文: JavaScript?—?Map vs. ForEach - What’s the difference between Map and Fo

Spark中map與flatMap

必須 ret iter ext within serve 函數 range fail map將函數作用到數據集的每一個元素上，生成一個新的分布式的數據集(RDD)返回 map函數的源碼： def map(self, f, preservesPartitioning=Fal

Spark中repartition和partitionBy的區別

是我 item its alt ive 同時 tint nts exe repartition 和 partitionBy 都是對數據進行重新分區，默認都是使用 HashPartitioner，區別在於partitionBy 只能用於 PairRDD，但是當它們同時都用於

Spark 中 map 與 flatMap 的比較

通過一個實驗來看Spark 中 map 與 flatMap 的區別。步驟一：將測試資料放到hdfs上面 hadoopdfs -put data1/test1.txt /tmp/test1.txt 該測試資料有兩行文字：步驟二：在Spark

C++ STL中map和unordered_map的區別

map與unordered_map對比 map unordered_map 紅黑樹（屬於非嚴格二叉平衡搜尋樹）實現雜湊表實現有序無序 —— 查詢時間複雜度為O(1

Spark之中map與flatMap的區別

一直不太明白spark之中map與flatMap之間的區別。map的作用很容易理解就是對rdd之中的元素進行逐一進行函式操作對映為另外一個rdd。flatMap的操作是將函式應用於rdd之中的每一個元素，將返回的迭代器的所有內容構成新的rdd。通常用來切分單詞。區別1： flatM

javascript中map和filter的區別

原生js中陣列可以直接通過map(),filter()函式來進行一次操作，他們分別是做一次統一對映，和一次過濾。說的更通俗一點，就是map函式之後，陣列元素個數不變，但是按照一定的條件轉換，陣列元素髮生了變化。filter函式之後，陣列元素個數可能發生了改變，但是陣列元素不會發生改變。下面

Spark 中RDD和DataSet之間的轉換

什麼是RDD:Spark提供了一個抽象的彈性分散式資料集，是一個由叢集中各個節點以分割槽的方式排列的集合，用以支援平行計算。RDD在驅動程式呼叫hadoop的檔案系統的時候就建立（其實就是讀取檔案的時候就建立），或者通過驅動程式中scala集合轉化而來，使用者也可以用spar

spark中makerdd和parallelize的區別

我們知道，在Spark中建立RDD的建立方式大概可以分為三種：（1）、從集合中建立RDD；（2）、從外部儲存建立RDD；（3）、從其他RDD建立。　　而從集合中建立RDD，Spark主要提供了兩中函式：parallelize和makeRDD。我們可以先看看這兩個函式的宣告

【Big Data 每日一題20180821】Spark中ml和mllib的區別

Spark中ml和mllib的主要區別和聯絡如下： ml和mllib都是Spark中的機器學習庫，目前常用的機器學習功能2個庫都能滿足需求。 spark官方推薦使用ml, 因為ml功能更全面更靈活，未來會主要支援ml，mllib很有可能會被廢棄(據說可能是在spark3.

java8之資料流Stream的Map和flatMap的區別

package com.lyzx.day03; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.util.stream.Stream; import org.junit.Test;/

每次進步一點點——spark中cache和persist的區別

昨天面試被問到了cache和persist區別，當時只記得是其中一個呼叫了另一個，但沒有回答出二者的不同，所以回來後重新看了原始碼，算是弄清楚它們的區別了。 cache和persist都是用於將一個RDD進行快取的，這樣在之後使用的過程中就不需要重新計算了，可

JS中Map和ForEach的區別

如果你已經有使用JavaScript的經驗，你可能已經知道這兩個看似相同的方法：Array.prototype.map()和Array.prototype.forEach()。那麼，它們到底有什麼區別呢？定義我們首先來看一看MDN上對Map和ForEach的定義：forEac

Java集合面試題(02) Java中List和Set之間區別

本文為本博主翻譯，未經允許，嚴禁轉載！簡介 Java中List和Set之間有什麼區別是一個非常流行的Java集合面試問題，也是在Java中使用Collection類時要記住的一個重要的基本概念。 List和Set都是Java程式最重要的Collection類中的兩個，以及

Java中Map和Set之間的關係（及Map.Entry）

1、通過查詢API文件： 2、Map.Entry是一個介面，所以不能直接例項化。 3、Map.entrySet( )返回的是一個collection集合，並且，這個collection中的元素是Map.Entry型別，如下圖所示： 4、 Map是Java中的

spark中map和flatmap之間的區別

相關推薦