第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_cogroup

阿新 • • 發佈：2022-03-27

1. 定義

  /*
    * 1.定義
    *     def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]
    *     def cogroup[W1, W2](other1: RDD[(K, W1)], other2: RDD[(K, W2)])
    *             : RDD[(K, (Iterable[V], Iterable[W1], Iterable[W2]))]
    *       def cogroup[W1, W2, W3](other1: RDD[(K, W1)],
    *               other2: RDD[(K, W2)],
    *               other3: RDD[(K, W3)],
    *               partitioner: Partitioner)
    *               : RDD[(K, (Iterable[V], Iterable[W1], Iterable[W2], Iterable[W3]))]
    * 2.功能
    *     將兩個(或多個) 型別為(K,V)和(K,W)的RDD 進行fullouterjoin
    *               返回一個相同 key 對應的所有元素連線在一起的 (K,(Iterable<V>,Iterable<W>))的 RDD
    *
    * 3.操作流程
    *     1. 對每個Rdd進行分組操作
    *              rdd1: key,Iterable<V>
    *              rdd2: key,Iterable<W>
    *              rdd3: key,Iterable<Z>
    *     2. 對多個Rdd 按Key 進行fullOuterJoin
    *              rdd1.cogroup(rdd2,rdd3)
    *              結果 : key,(Iterable<V>,Iterable<W>,Iterable<Z>)
    * 4.note
    *     1. 引數中對多可以傳入三個Rdd
    *  
*/

2.示例

  object cogroupTest extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    val rdd1: RDD[(Int, String)] = sc.makeRDD(List((1, "劉備"),(1, "劉備1"), (2, "張飛"), (3, "關羽"), (4, "曹操"), (5, "趙雲"), (7, "孫權")), 2)
    val rdd2: RDD[(Int, String)]  
= sc.makeRDD(List((1, "蜀國"), (2, "蜀國"), (2, "蜀國1") ,(3, "蜀國"), (4, "魏國"), (5, "蜀國"), (6, "吳國")), 3)
    val rdd3: RDD[(Int, String)] = sc.makeRDD(List((1, "蜀國_"), (2, "蜀國_"), (2, "蜀國1_") ,(3, "蜀國_"), (4, "魏國_"), (5, "蜀國_"), (16, "吳國_")), 3)

    private val rdd4: RDD[(Int, (Iterable[String], Iterable[String], Iterable[String]))] = rdd1.cogroup(rdd2,rdd3)

    rdd4.collect().foreach(println(_))

    sc.stop()
  }

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_cogroup

1. 定義 /* * 1.定義 *def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] *def cogroup[W1, W2](other1: RDD[(K, W1)], other2: RDD[(K, W2)])

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_reduceByKey

1. 定義 /* * 1. 定義 *def reduceByKey(func: (V, V) => V): RDD[(K, V)] *def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_groupByKey

1. 定義 /* * 1. 定義 *def groupByKey(): RDD[(K, Iterable[V])] *def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_aggregateByKey

1. 定義 /* * 1. 定義 *def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner) *(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_foldByKey

1. 定義 /* * 1. 定義 *def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)] *def foldByKey(zeroValue: V,partitioner: Partitioner)(func: (V, V) => V): RDD[(K, V)]

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_combineByKey

1. 定義 /* * 1. 定義 *def combineByKey[C](createCombiner: V => C, *mergeValue: (C, V) => C, *mergeCombiners: (C, C) => C,

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_join&leftOuterJoin&rightOuterJoin&fullOuterJoin

1. join /* * 1.定義 *def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] *def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))]

第五章_Spark核心程式設計_Rdd_閉包檢測&物件序列化

1. 說明 /*閉包檢查*/ /* * 1. Scala的閉包 *如果一個函式,訪問了它外部的(區域性)變數的值,那麼這個函式和所處的環境,稱之為閉包

第五章_Spark核心程式設計_Rdd_血緣關係

1. RDD 血緣關係 /*RDD 血緣關係*/ /* * 1. 什麼是Rdd的血緣關係？ *1.RDD 只支援粗粒度轉換，即在大量記錄上執行的單個操作。

第五章_Spark核心程式設計_Rdd_持久化(cache&persist&checkpoint)

1.什麼是Rdd持久化？ Rdd只會儲存的元資料資訊(切片的位置資訊、Rdd的依賴關係、計算邏輯等),不會儲存計算資料

第五章_Spark核心程式設計_Rdd_分割槽器

1. 什麼是Rdd的分割槽器？ *key-value型別的Rdd在Shuffle時,會根據key的特質進行分割槽

第五章_Spark核心程式設計_Rdd_map運算元

1. 說明定義 : def map[U: ClassTag](f: T => U): RDD[U] 功能 : 通過對 RDD的所有元素應用一個函式返回一個新的RDD

第五章_Spark核心程式設計_Rdd_mapPartitionsWithIndex運算元

1. 說明 /* * 定義 : *def mapPartitionsWithIndex[U: ClassTag]( *f: (Int, Iterator[T]) => Iterator[U],

第五章_Spark核心程式設計_Rdd_glom運算元

1. 說明 /* * 1. 定義 *def glom(): RDD[Array[T]] * * 2. 功能 *1. 將同一個分割槽的資料直接轉換為相同型別的記憶體陣列,並返回Rdd(元素型別為陣列)

第五章_Spark核心程式設計_Rdd_groupBy運算元

1. 定義 /* * 1. 定義 *def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] *

第五章_Spark核心程式設計_Rdd_filter運算元

1. 定義 /* * 1. 定義 *def filter(f: T => Boolean): RDD[T] * * 2. 功能 *根據傳輸函式對Rdd元素進行過濾,剔除不符合條件的元素

第五章_Spark核心程式設計_Rdd_sample運算元

1. 定義 /* * 1. 定義 *def sample( *withReplacement: Boolean, *fraction: Double, *seed: Long = Utils.random.nextLong): RDD[T]

第五章_Spark核心程式設計_Rdd_distinct運算元

1. 定義 /* * 1. 定義 *def distinct(): RDD[T] * 2. 功能 *將Rdd 元素去重,返回去重後的Rdd * * */

第五章_Spark核心程式設計_Rdd運算元_2value_求交集&並集&差集&拉鍊_intersection&union&subtract&zip

1. 求交集-intersection object intersectionTest extends App { /* * 1. 定義 *def intersection(other: RDD[T]): RDD[T]

第五章_Spark核心程式設計_SparkConf&SparkContext

/* * TODO 關於 SparkConf 的作用 *1. spark的配置物件用來初始化 Spark application 的配置資訊

第五章_Spark核心程式設計_Rdd_轉換運算元_keyValue型_cogroup

1. 定義

2.示例

相關推薦