PySpark（3）RDD Transformations with examples

阿新 • • 發佈：2021-02-19

技術標籤：spark

1.RDD Transformations介紹：

RDD Transformations操作是在RDD上執行時的Spark操作，。它會導致一個或多個新RDD。由於RDD本質上是不可變的，因此轉換總是在不更新現有RDD的情況下
建立新的RDD，因此，這會建立RDD族譜。RDD譜系也稱為RDD運算子圖或RDD依賴圖。

RDD Transformations操作的兩個特點是，在呼叫Spark RDD上的action操作之前，不會執行任何Transformations操作；由於RDD是不可變的，因此對其進行
任何Transformations操作都會導致產生新的RDD，而當前的RDD保持不變；

2.RDD Transformation有兩種型別

（1）Narrow Transformation，稱為窄轉換，窄轉換是基於窄依賴(narrow dependencies)進行的RDD轉換。所謂窄依賴是指：父RDD的每個分割槽最多被兒子RDD的
一個分割槽使用。產生窄轉換的函式有：map，filter，distinct，union，基於分割槽的jion等。窄轉換的優點是高效，因為窄轉換通常可以在同一個節點上完成，省
去了叢集中節點之間的資料傳輸，並且由於父RDD的每個分割槽只會至多有一個子RDD的分割槽，在計運算元RDD的分割槽時，計算過程不會有任何浪費。
Functions such as map(), mapPartition(), flatMap(), filter(), union() are some examples of narrow transformation

（2）Wider Transformation，寬轉換是基於寬依賴(wide dependencies)進行的RDD轉換。所謂寬依賴是指：父RDD的每個分割槽都可能被子RDD的多個分割槽使用。也就
是說，計算單個分割槽中的記錄所需的資料可能存在父RDD的多個分割槽中。所以，寬轉換會發生shuffle過程，有時候把寬轉換也稱為：shuffle transformations。
由於父RDD的分割槽資料被多個子RDD分割槽依賴，這樣的話，在計算某個子RDD的分割槽時，需要計算父RDD的分割槽資料，但計算出來的父RDD的分割槽資料不會全部給子RDD使
用，也就造成了計算資源的浪費。導致寬轉換的函式有：groupByKey，reduceByKey等。

Functions such as groupByKey(), aggregateByKey(), aggregate(), join(), repartition() are some examples of a wider transformations.

總之，Wider Transformation由於會需要shuffle過程，要比Narrow Transformation使用的資源更多。

3.例子-對test.txt進行Count Word

spark = SparkSession.builder\
    .appName('SparkByExamples.com')\
    .master("local[3]")\
    .getOrCreate()

rdd = spark.sparkContext.textFile("test.txt")

flatMap()

# flatMap() Transformation : 將原rdd打平，返回一個新的rdd
# collect() : Return a list that contains all of the elements in this RDD.
rdd2 = rdd.flatMap(lambda x: x.split(' '))
print(rdd2.collect())

map()

# map() Transformation : 使用map()轉換進行任何複雜的操作，例如新增列，更新列等，對映轉換的輸出將始終具有與輸入相同的記錄數。
# 在我們的單詞計數示例中，我們將為每個單詞新增一個值為1的新列，RDD的結果為PairRDDFunctions，其中包含很多鍵值對
rdd3 = rdd2.map(lambda x: (x, 1))
print(rdd3.collect())

filter()

# filter() Transformation : 過濾RDD中的記錄
# 過濾所有以“ a”開頭的單詞。返回的rdd4中都是以a開頭的key
rdd4 = rdd3.filter(lambda x: x[0].startswith("a"))
print(rdd4.collect())

reduceByKey()

# reduceByKey() Transformation : 將按照key先進行分組，然後每個組中的每個鍵的值會按照給定的特定方法計算
from operator import add
rdd5 = rdd4.reduceByKey(add)
print(rdd5.collect())

sortByKey()

# sortByKey() Transformation : 用於對key上的RDD元素進行排序。
# 首先將rdd5中的key-value調換位置，然後排序
rdd6 = rdd5.map(lambda x: (x[1], x[0])).sortByKey()

foreach()

# Action foreach(function) : Applies a function to all elements of this RDD
rdd6.foreach(print)

repartition()

print("rdd6-partition count:", rdd6.getNumPartitions())
# repartition() : 設定rdd的分割槽數,該方法預設shuffle開啟了
reparRdd = rdd.repartition(4)
print("re-partition count:", reparRdd.getNumPartitions())

# Action - count() : Return the number of elements in this RDD.
print("Count : ", rdd6.count())

列印結果:

寫出下面各邏輯表示式的值。設a=3,b=4,c=5。寫出下面各邏輯表示式的值。設a=3,b=4,c=5。（1）a + b > c && b == c （2）a || b + c && b - c （3）!(a > b) && !c || 1 （4）!(x = a) && (y = b)

寫出下面各邏輯表示式的值。設a=3,b=4,c=5。（1）a + b > c && b == c （2）a || b + c && b - c

HotSpot的類模型（3）

上一篇 HotSpot的類模型（2）介紹了類模型的基礎類Klass的重要屬性及方法，這一篇介紹一下InstanceKlass及InstanceKlass的子類。

前端科普系列（3）：CommonJS 不是前端卻革命了前端

本文首發於 vivo網際網路技術微信公眾號連結： https://mp.weixin.qq.com/s/15sedEuUVTsgyUm1lswrKA 作者：Morrain

PySpark（3）RDD Transformations with examples

1.RDD Transformations介紹：

2.RDD Transformation有兩種型別

3.例子-對test.txt進行Count Word

PySpark（3）RDD Transformations with examples

MySQL的SQL語句 - 資料操作語句（17）- WITH 語句（3）

向您生動地講解Spring AOP 原始碼（3）

2019年Java面試題基礎系列228道（3），查漏補缺！

iOS MDM詳解（3）— 生成mobileconfig配置檔案及簽名

Spring Security 技術棧開發企業級認證授權（3）

Spark 系列（四）—— RDD常用運算元詳解

Redis專題（3）：鎖的基本概念到Redis分散式鎖實現

小白學 Python（3）：基礎資料型別（下）

caddy（3）為 caddy 新增一個反向代理外掛

Kettle 小記（2）-- Spoon的使用（3） -- 主物件樹和核心物件

C#碼農學TypeScript（3）—— 變數宣告

使用者介面設計（3）- 窗體的主要方法

使用者介面設計（3）- 窗體的控制

【轉載】每天5分鐘用C#學習資料結構（3）單鏈表 Part 1

快速體驗，學習lua(一種可嵌入c++,c#,android,object-c等並進行互調支援熱更新的指令碼)的入門除錯系列（3）

Apache POI 操作Excel（3）-- Excel基礎

寫出下面各邏輯表示式的值。設a=3,b=4,c=5。寫出下面各邏輯表示式的值。設a=3,b=4,c=5。（1）a + b > c && b == c （2）a || b + c && b - c （3）!(a > b) && !c || 1 （4）!(x = a) && (y = b)

HotSpot的類模型（3）

前端科普系列（3）：CommonJS 不是前端卻革命了前端

PySpark（3）RDD Transformations with examples

1.RDD Transformations介紹：

2.RDD Transformation有兩種型別

3.例子-對test.txt進行Count Word

相關推薦