Spark運算元：Action之countByKey、foreach、foreachPartition、sortBy

阿新 • • 發佈：2018-12-11

1、countByKey：def countByKey(): Map[K, Long]

countByKey用於統計RDD[K,V]中每個K的數量。

scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("B",3)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[7] at makeRDD at :21
 
scala> rdd1.countByKey
res5: scala.collection.Map[String,Long] = Map(A -> 2, B -> 3)

2、foreach：def foreach(f: (T) ⇒ Unit): Unit

foreach用於遍歷RDD,將函式f應用於每一個元素。如果對RDD執行foreach，只會在Executor端有效，而並不是Driver端。

比如：rdd.foreach(println)，只會在Executor的stdout中打印出來，Driver端是看不到的，此時可以使用accumulator共享變數與foreach結合來處理。

scala> var cnt = sc.accumulator(0)
cnt: org.apache.spark.Accumulator[Int] = 0
 
scala> var rdd1 = sc.makeRDD(1 to 5,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at :21
 
scala> rdd1.foreach(x => cnt += x)
 
scala> cnt.value
res51: Int = 15
 
scala> rdd1.collect.foreach(println)
1
2
3
4
5

3、foreachPartition：def foreachPartition(f: (Iterator[T]) ⇒ Unit): Unit

foreachPartition和foreach類似，只不過是對每一個分割槽使用f。

scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at :21
 
scala> var allsize = sc.accumulator(0)
size: org.apache.spark.Accumulator[Int] = 0
 
scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[6] at makeRDD at :21
 
scala>     rdd1.foreachPartition { x => {
     |       allsize += x.size
     |     }}
 
scala> println(allsize.value)
10

4、sortBy：

def sortBy[K](f:(T) ⇒ K, ascending: Boolean= true, numPartitions: Int = this.partitions.length)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

sortBy根據給定的排序k函式將RDD中的元素進行排序。

scala> var rdd1 = sc.makeRDD(Seq(3,6,7,1,2,0),2)
 
scala> rdd1.sortBy(x => x).collect
res1: Array[Int] = Array(0, 1, 2, 3, 6, 7) //預設升序
 
scala> rdd1.sortBy(x => x,false).collect
res2: Array[Int] = Array(7, 6, 3, 2, 1, 0)  //降序
 
//RDD[K,V]型別
scala>var rdd1 = sc.makeRDD(Array(("A",2),("A",1),("B",6),("B",3),("B",7)))
 
scala> rdd1.sortBy(x => x).collect
res3: Array[(String, Int)] = Array((A,1), (A,2), (B,3), (B,6), (B,7))
 
//按照V進行降序排序
scala> rdd1.sortBy(x => x._2,false).collect
res4: Array[(String, Int)] = Array((B,7), (B,6), (B,3), (A,2), (A,1))

Spark運算元：Action之countByKey、foreach、foreachPartition、sortBy

1、countByKey：def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。 scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1)

Spark運算元：Action之first、count、reduce、collect

1、first：def first(): T 該函式返回RDD的第一個元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1: org.apache.spar

Spark運算元：Action之saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

1、saveAsTextFile 1）def saveAsTextFile(path: String): Unit 2）def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Uni

Spark運算元：Action之saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

1、saveAsNewAPIHadoopFile 1）def saveAsNewAPIHadoopFile[F <: OutputFormat[K, V]](path: String)(implicit fm: ClassTag[F]): Unit 2）def saveAsNewAPIHa

Spark運算元：transformation之map、flatMap和distinct

1、map 將RDD中的每個元素通過map中的函式對映為一個新的元素，並返回一個新型別的RDD。輸入時的分割槽數與輸出時的分割槽數保持一致。 //HDFS上的txt檔案 hadoop fs -cat /tmp/1.txt hello world hello spark h

Spark運算元：transformation之union、intersection、subtract

1、union：def union(other: RDD[T]): RDD[T] 該函式是不去重的合併兩個RDD。 scala> var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int]

Spark運算元：transformation之鍵值轉換groupByKey、reduceByKey、reduceByKeyLocally

1、groupByKey 1）def groupByKey(): RDD[(K, Iterable[V])] 2）def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] 3）def groupByKey(parti

Spark運算元：transformation之鍵值轉換combineByKey、foldByKey

1、combineByKey 1）def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)

Spark運算元：transformation之鍵值轉換join、cogroup

1、join 1）def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 2）def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] 3）def

Spark運算元：transformation之鍵值轉換partitionBy、mapValues、flatMapValues

1、partitionBy：def partitionBy(partitioner: Partitioner): RDD[(K, V)] 該函式根據partitioner函式生成新的ShuffleRDD，將原RDD重新分割槽。 scala> var rdd1 = sc.makeRDD(

Spark運算元：transformation之鍵值轉換leftOuterJoin、rightOuterJoin、subtractByKey

1、leftOuterJoin 1）def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))] 2）def leftOuterJoin[W](other: RDD[(K, W)], numPartitions: Int):

Spark運算元：RDD鍵值轉換操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

關鍵字：Spark運算元、Spark RDD鍵值轉換、leftOuterJoin、rightOuterJoin、subtractByKey leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V,

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy countByKey def countByKey(): Map[K, Long] countByKey用於統

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

spark運算元：distinct去重的原理

1、Distinct是transformation運算元，不是action運算元。 2、Distinct的去重，是當key與value都一樣的時候，會被當做重複的資料。也就是說，有多條key和value都相同的資料在執行完distincc

spark運算元：滑動視窗函式reduceByKeyAndWindow的使用

1.reduceByKeyAndWindow這個運算元也是lazy的,它用來計算一個區間裡面的資料,如下圖: 截圖自官網,例如每個方塊代表5秒鐘,上面的虛線框住的是3個視窗就是15秒鐘,這裡的15秒鐘就是視窗的長度,其中虛線到實線移動了2個方塊表示10秒鐘,這裡的10秒鐘就表示每隔10秒計算一

Spark運算元：RDD分割槽中的元素和數量統計

1、分割槽邏輯 Spark RDD是被分割槽的，在生成RDD時候，一般可以指定分割槽的數量，如果不指定分割槽數量，當RDD從集合建立時候，則預設為該程式所分配到的資源的CPU核數，如果是從HDFS檔案建立，預設為檔案的Block數。 2、分割槽元素統計可以利用RDD的mapPartit

Spark運算元：RDD建立的方式

建立RDD大體分為兩類方式：（1）通過集合建立；（2）通過外部儲存建立。 1、通過集合方式（1）parallelize：def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: C

運算元組之常用方法：map()、filter()、some()、every()、 forEach()

如標題所說這幾個方法是運算元組最常用的幾個方法。它們有怎樣的區別呢？ map(callback)返回一個新的陣列。為每個元素執行callback方法 let arr = [1,2,3,4]; let newArr = arr.map((item,index)

3.4 Spark RDD Action操作4-countByKey、foreach、foreachPartition、sortBy

1 countByKey def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。例子： scala> var rdd1 = sc.makeRDD(Array((“A”,0),(“

Spark運算元：Action之countByKey、foreach、foreachPartition、sortBy

相關推薦