Spark運算元：transformation之map、flatMap和distinct

阿新 • • 發佈：2018-12-10

1、map

將RDD中的每個元素通過map中的函式對映為一個新的元素，並返回一個新型別的RDD。輸入時的分割槽數與輸出時的分割槽數保持一致。

//HDFS上的txt檔案
hadoop fs -cat /tmp/1.txt
hello world
hello spark
hello hive
 
//讀取HDFS檔案到RDD
scala> var data = sc.textFile("/tmp/1.txt")
data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at :21
 
//使用map運算元
scala> var mapresult = data.map(line => line.split("\\s+"))
mapresult: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[2] at map at :23
其中Array[String]=Array(hello, world), Array(hello, spark), Array(hello, hive)

//運算map運算元結果
scala> mapresult.collect
res0: Array[Array[String]] = Array(Array(hello, world), Array(hello, spark), Array(hello, hive))

2、flatMap

（1）分兩步：第一步map，第二步flat即將所有的輸出分割槽結果合併到一個分割槽。

/使用flatMap運算元
scala> var flatmapresult = data.flatMap(line => line.split("\\s+"))
flatmapresult: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at flatMap at :23
 
//運算flagMap運算元結果
scala> flatmapresult.collect
res1: Array[String] = Array(hello, world, hello, spark, hello, hive)

（2）flatMap會將字串當做一個數組

scala> data.map(_.toUpperCase).collect
res32: Array[String] = Array(HELLO WORLD, HELLO SPARK, HELLO HIVE, HI SPARK)
scala> data.flatMap(_.toUpperCase).collect
res33: Array[Char] = Array(H, E, L, L, O,  , W, O, R, L, D, H, E, L, L, O,  , S, P, A, R, K, H, E, L, L, O,  , H, I, V, E, H, I,  , S, P, A, R, K)

（3）map與flatMap的處理結果對比

scala> data.map(x => x.split("\\s+")).collect
res34: Array[Array[String]] = Array(Array(hello, world), Array(hello, spark), Array(hello, hive), Array(hi, spark))
 
scala> data.flatMap(x => x.split("\\s+")).collect
res35: Array[String] = Array(hello, world, hello, spark, hello, hive, hi, spark)

flatMap只會將String扁平化成字元陣列，並不會把Array[String]也扁平化成字元陣列

3、distinct

對RDD中的元素去重。

scala> data.flatMap(line => line.split("\\s+")).collect
res61: Array[String] = Array(hello, world, hello, spark, hello, hive, hi, spark)
 
scala> data.flatMap(line => line.split("\\s+")).distinct.collect
res62: Array[String] = Array(hive, hello, world, spark, hi)

Spark運算元：transformation之map、flatMap和distinct

1、map 將RDD中的每個元素通過map中的函式對映為一個新的元素，並返回一個新型別的RDD。輸入時的分割槽數與輸出時的分割槽數保持一致。 //HDFS上的txt檔案 hadoop fs -cat /tmp/1.txt hello world hello spark h

Spark運算元：transformation之union、intersection、subtract

1、union：def union(other: RDD[T]): RDD[T] 該函式是不去重的合併兩個RDD。 scala> var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int]

Spark運算元：transformation之鍵值轉換groupByKey、reduceByKey、reduceByKeyLocally

1、groupByKey 1）def groupByKey(): RDD[(K, Iterable[V])] 2）def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] 3）def groupByKey(parti

Spark運算元：transformation之鍵值轉換combineByKey、foldByKey

1、combineByKey 1）def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)

Spark運算元：transformation之鍵值轉換join、cogroup

1、join 1）def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 2）def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] 3）def

Spark運算元：transformation之鍵值轉換partitionBy、mapValues、flatMapValues

1、partitionBy：def partitionBy(partitioner: Partitioner): RDD[(K, V)] 該函式根據partitioner函式生成新的ShuffleRDD，將原RDD重新分割槽。 scala> var rdd1 = sc.makeRDD(

Spark運算元：transformation之鍵值轉換leftOuterJoin、rightOuterJoin、subtractByKey

1、leftOuterJoin 1）def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))] 2）def leftOuterJoin[W](other: RDD[(K, W)], numPartitions: Int):

Spark運算元：Action之first、count、reduce、collect

1、first：def first(): T 該函式返回RDD的第一個元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1: org.apache.spar

Spark運算元：Action之countByKey、foreach、foreachPartition、sortBy

1、countByKey：def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。 scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1)

Spark運算元：Action之saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

1、saveAsTextFile 1）def saveAsTextFile(path: String): Unit 2）def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Uni

Spark運算元：Action之saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

1、saveAsNewAPIHadoopFile 1）def saveAsNewAPIHadoopFile[F <: OutputFormat[K, V]](path: String)(implicit fm: ClassTag[F]): Unit 2）def saveAsNewAPIHa

RxJS非同步通訊之map、flatMap

let source1: string = Observable.range(1,4).map((item) => { return item; }); source1.subscribe((itam) => { console.log('return val

scala-35：List的map、flatMap、foreach、filter操作程式碼實戰

內容： 1、對list的map和flatmap實戰 2、對list的foreach和filter實戰 Map：對list中的多有元素執行一個具體的函式,結果為一個list； Flatmap:對list的內部成員進行map，map的結果為一個list，然後在如果的基礎上進行

Spark運算元：RDD分割槽中的元素和數量統計

1、分割槽邏輯 Spark RDD是被分割槽的，在生成RDD時候，一般可以指定分割槽的數量，如果不指定分割槽數量，當RDD從集合建立時候，則預設為該程式所分配到的資源的CPU核數，如果是從HDFS檔案建立，預設為檔案的Block數。 2、分割槽元素統計可以利用RDD的mapPartit

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark API 詳解/大白話解釋之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues

map(function) map是對RDD中的每個元素都執行一個指定的函式來產生一個新的RDD。任何原RDD中的元素在新RDD中都有且只有一個元素與之對應。舉例： val a = sc.parallelize(1 to 9, 3) val b =

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy countByKey def countByKey(): Map[K, Long] countByKey用於統

給初學者的RxJava2.0教程(三)：【操作符：Map、FlatMap、ConcatMap】

前言上一節講解了執行緒排程, 並且舉了兩個實際中的例子, 其中有一個登入的例子, 不知大家有沒有想過這麼一個問題, 如果是一個新使用者, 必須先註冊, 等註冊成功之後再自動登入該怎麼做呢. 很明顯, 這是一個巢狀的網路請求, 首先需要去請求

Spark運算元：RDD鍵值轉換操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

關鍵字：Spark運算元、Spark RDD鍵值轉換、leftOuterJoin、rightOuterJoin、subtractByKey leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V,

Spark運算元：transformation之map、flatMap和distinct

相關推薦