Spark運算元：RDD分割槽中的元素和數量統計

阿新 • • 發佈：2018-12-30

1、分割槽邏輯

Spark RDD是被分割槽的，在生成RDD時候，一般可以指定分割槽的數量，如果不指定分割槽數量，當RDD從集合建立時候，則預設為該程式所分配到的資源的CPU核數，如果是從HDFS檔案建立，預設為檔案的Block數。

2、分割槽元素統計

可以利用RDD的mapPartitionsWithIndex方法來統計每個分割槽中的元素及數量。

示例1：

假如建立一個RDD，預設分割槽15個，因為我的spark-shell指定了一共使用15個CPU資源。

（1）分割槽數

scala> var rdd1 = sc.makeRDD(1 to 50)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[17] at makeRDD at :21
 
scala> rdd1.partitions.size
res15: Int = 15

（2）分割槽中元素數量統計

rdd1.mapPartitionsWithIndex{
    (partIdx,iter) => {
      var part_map = scala.collection.mutable.Map[String,Int]()
        while(iter.hasNext){
          var part_name = "part_" + partIdx;
          if(part_map.contains(part_name)) {
            var ele_cnt = part_map(part_name)
            part_map(part_name) = ele_cnt + 1
          } else {
            part_map(part_name) = 1
          }
          iter.next()
        }
        part_map.iterator
       
    }
  }.collect
 
res16: Array[(String, Int)] = Array((part_0,3), (part_1,3), (part_2,4), (part_3,3), (part_4,3), (part_5,4), (part_6,3), 
(part_7,3), (part_8,4), (part_9,3), (part_10,3), (part_11,4), (part_12,3), (part_13,3), (part_14,4))
//從part_0到part_14，每個分割槽中的元素數量

（3）分割槽中元素展示

rdd1.mapPartitionsWithIndex{
  (partIdx,iter) => {
    var part_map = scala.collection.mutable.Map[String,List[Int]]()
      while(iter.hasNext){
        var part_name = "part_" + partIdx;
        var elem = iter.next()
        if(part_map.contains(part_name)) {
          var elems = part_map(part_name)
          elems ::= elem
          part_map(part_name) = elems
        } else {
          part_map(part_name) = List[Int]{elem}
        }
      }
      part_map.iterator
     
  }
}.collect
 
res17: Array[(String, List[Int])] = Array((part_0,List(3, 2, 1)), (part_1,List(6, 5, 4)), (part_2,List(10, 9, 8, 7)), (part_3,List(13, 12, 11)), 
(part_4,List(16, 15, 14)), (part_5,List(20, 19, 18, 17)), (part_6,List(23, 22, 21)), (part_7,List(26, 25, 24)), (part_8,List(30, 29, 28, 27)), 
(part_9,List(33, 32, 31)), (part_10,List(36, 35, 34)), (part_11,List(40, 39, 38, 37)), (part_12,List(43, 42, 41)), (part_13,List(46, 45, 44)), 
(part_14,List(50, 49, 48, 47)))
//從part_0到part14，每個分割槽中包含的元素

示例2：

從HDFS檔案建立一個RDD，包含65個分割槽，因為該檔案由65個Block。

（1）分割槽數

scala> var rdd2 = sc.textFile("/logs/2015-07-05/lxw1234.com.log")
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[21] at textFile at :21
 
scala> rdd2.partitions.size
res18: Int = 65

（2）分割槽中元素數量統計

scala> rdd2.mapPartitionsWithIndex{
     |         (partIdx,iter) => {
     |           var part_map = scala.collection.mutable.Map[String,Int]()
     |             while(iter.hasNext){
     |               var part_name = "part_" + partIdx;
     |               if(part_map.contains(part_name)) {
     |                 var ele_cnt = part_map(part_name)
     |                 part_map(part_name) = ele_cnt + 1
     |               } else {
     |                 part_map(part_name) = 1
     |               }
     |               iter.next()
     |             }
     |             part_map.iterator
     |            
     |         }
     |       }.collect
 
 
res19: Array[(String, Int)] = Array((part_0,202496), (part_1,225503), (part_2,214375), (part_3,215909), 
(part_4,208941), (part_5,205379), (part_6,207894), (part_7,209496), (part_8,213806), (part_9,216962), 
(part_10,216091), (part_11,215820), (part_12,217043), (part_13,216556), (part_14,218702), (part_15,218625), 
(part_16,218519), (part_17,221056), (part_18,221250), (part_19,222092), (part_20,222339), (part_21,222779), 
(part_22,223578), (part_23,222869), (part_24,221543), (part_25,219671), (part_26,222871), (part_27,223200), 
(part_28,223282), (part_29,228212), (part_30,223978), (part_31,223024), (part_32,222889), (part_33,222106), 
(part_34,221563), (part_35,219208), (part_36,216928), (part_37,216733), (part_38,217214), (part_39,219978), 
(part_40,218155), (part_41,219880), (part_42,215833...

Spark運算元：RDD分割槽中的元素和數量統計

1、分割槽邏輯 Spark RDD是被分割槽的，在生成RDD時候，一般可以指定分割槽的數量，如果不指定分割槽數量，當RDD從集合建立時候，則預設為該程式所分配到的資源的CPU核數，如果是從HDFS檔案建立，預設為檔案的Block數。 2、分割槽元素統計可以利用RDD的mapPartit

Spark運算元：RDD建立的方式

建立RDD大體分為兩類方式：（1）通過集合建立；（2）通過外部儲存建立。 1、通過集合方式（1）parallelize：def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: C

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy countByKey def countByKey(): Map[K, Long] countByKey用於統

Spark運算元：RDD鍵值轉換操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

關鍵字：Spark運算元、Spark RDD鍵值轉換、leftOuterJoin、rightOuterJoin、subtractByKey leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V,

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

Spark運算元：transformation之map、flatMap和distinct

1、map 將RDD中的每個元素通過map中的函式對映為一個新的元素，並返回一個新型別的RDD。輸入時的分割槽數與輸出時的分割槽數保持一致。 //HDFS上的txt檔案 hadoop fs -cat /tmp/1.txt hello world hello spark h

Spark核心：RDD的運算元

RDD的運算元一般來說，RDD的整個計算過程都是發生在Worker節點中的Executor中的。RDD可以支援三種操作型別：Transformation、Action以及Persist和CheckPoint為代表的控制型別操作。 RDD一般是從外部資料來源

iOS開發知識之：iOS開發中alloc和new的區別

1.在實際開發中很少會用到new，一般建立物件咱們看到的全是[[className alloc] init] 但是並不意味著你不會接觸到new，在一些程式碼中還是會看到[className new]，還有去面試的時候，也很可能被問到這個問題。 2.那麼，他們兩者之間到底有什麼區別呢我們看原始碼：

spark運算元：distinct去重的原理

1、Distinct是transformation運算元，不是action運算元。 2、Distinct的去重，是當key與value都一樣的時候，會被當做重複的資料。也就是說，有多條key和value都相同的資料在執行完distincc

Python程式設計：itemgetter獲取字典元素和groupby分組

itemgetter獲取字典元素 groupby分組程式碼示例 from itertools import groupby from operator import itemgetter d1 = {"name": "Tom", "age": 23, "country": "

python學習（五）：Python類中super()和init()的關係

1.單繼承時super()和__init__()實現的功能是類似的 class Base(object): def __init__(self): print 'Base create' class childA(Base): def __init__(sel

Spark運算元：transformation之union、intersection、subtract

1、union：def union(other: RDD[T]): RDD[T] 該函式是不去重的合併兩個RDD。 scala> var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int]

Spark運算元：Action之first、count、reduce、collect

1、first：def first(): T 該函式返回RDD的第一個元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1: org.apache.spar

Spark運算元：Action之countByKey、foreach、foreachPartition、sortBy

1、countByKey：def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。 scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1)

Spark運算元：Action之saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

1、saveAsTextFile 1）def saveAsTextFile(path: String): Unit 2）def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Uni

Spark運算元：transformation之鍵值轉換groupByKey、reduceByKey、reduceByKeyLocally

1、groupByKey 1）def groupByKey(): RDD[(K, Iterable[V])] 2）def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] 3）def groupByKey(parti

Spark運算元：transformation之鍵值轉換combineByKey、foldByKey

1、combineByKey 1）def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)

Spark運算元：transformation之鍵值轉換join、cogroup

1、join 1）def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 2）def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] 3）def

spark運算元：滑動視窗函式reduceByKeyAndWindow的使用

1.reduceByKeyAndWindow這個運算元也是lazy的,它用來計算一個區間裡面的資料,如下圖: 截圖自官網,例如每個方塊代表5秒鐘,上面的虛線框住的是3個視窗就是15秒鐘,這裡的15秒鐘就是視窗的長度,其中虛線到實線移動了2個方塊表示10秒鐘,這裡的10秒鐘就表示每隔10秒計算一

記：巨集定義中的##和#的作用

核心中有很多的巨集定義，在巨集定義define中經常看到兩個字串##和#，這裡把它的用法做一下說明：一、 ##是一個連線符號，用於把引數連在一起例如： &n

Spark運算元：RDD分割槽中的元素和數量統計

相關推薦