總結常用的Transformation運算元和Action運算元，及基本用法

阿新 • • 發佈：2018-11-11

只有是Action時，才會執行立即操作。 Transformation是 lazy的操作，不會立即執行，執行Transformation的運算元時，會返回一個新的RDD,依賴上一個RDD

transformation：
1、sortBy ：  對於RDD的是非元組型，rdd1.soreBy(x=>x),元組型按value排序
rdd.soreBy(_._2)（進行shuffle）

2、sortByKey ： 對於RDD記憶體的是元組型別的使用（進行shuffle） ，sortBy和
sortByKey都是transformation運算元，但都會觸發job任務，底層new了一個rangePartition物件，底層會呼叫一個foreach方法，進行排序，所以會觸發job

3、reduceByKey(_+_) ： 先在分割槽內進行按key合併，在全域性合併（全域性是把相同key的
不同的分割槽，拉倒同一個分割槽（有多個分割槽））會進行shuffle

4、filter： 過濾， 不會進行shuffle

5、flatMap： 方法，可以先切分，再壓平， 不會進行shuffle

6、 rdd1.intersection(rdd2), 求兩個集合的交集

7.0、 rdd1.union(rdd2),返回rdd1和rdd2中的所有元素，返回型別是Array，不Shuffle

7、rdd1.join(rdd2), 返回結果RDD[(String, (Int, Int))]，join是內連線，
只有相同的才會join，會有shuffle過程

8、 rdd1.leftOuterJoin(rdd2)，返回結果是RDD[(String, (Int, Option[Int]))]，如果有rdd2中有和rdd1對應的資料時Some(value值)，沒有值None，第一個Int是rdd1中的value，rdd1中的資料會顯示完，有shuffle

9、rdd1.rightOuterJoin(rdd2)，返回結果是RDD[(String, (Option[Int], Int))]，
String是key型別， Option[Int]表示和rdd2中對應的沒有，就和None，
 有和rdd2中的資料對應的就是Some(value),rdd2中的資料會顯示完，有shuffle
 
10、rdd.groupByKey()， 按key進行聚合，把不同分割槽的相同的key拉倒同一臺機器上，返回值是 RDD[(String, Iterable[Int])],String 是key的型別，迭代器是相同key的value的，如果想要聚合  ，可以呼叫 map(x=>(x._1,x._2.sum))方法，相當於reduceBykey.會進行shuffle，
10.1 rdd.groupBy() 通過指定的值進行聚合，返回的值是
 RDD[(String, Iterable[(String, Int)])] ，迭代器中的型別是整個KV的型別
 
11、rdd.reduceByKey(_+_)，返回值RDD[(String, Int)]，在分割槽內按key進行聚合
（Combiner），再把不同分割槽的相同的key的資料拉倒同一機器上進行聚合，會進行shuffle，
reduceByKey會進行Combiner，所以比groupByKey效率高，一般用reduceByKey

12、rdd1.cogroup(rdd2) 會有shuffle，把相同的key聚合在同一機器會出現shuffle，返
回是 RDD[(String, (Iterable[Int], Iterable[Int]))]，有點類似以全外連線，所
有的rdd1和rdd2中的所有資料都能顯示，String是key，第一個迭代器是對應rdd1中key的所有
value，第二個迭代器是對應rdd2中對應key的所有value，會出現如下這種結果
(jack,(CompactBuffer(3),CompactBuffer()))
(jerry,(CompactBuffer(),CompactBuffer(2，6)))

13、fm.mapPartitions(it=>it.map(_*2))，傳的引數是一個函式，函式的引數是迭代器，
返回是迭代器， 引數是每個分割槽中的資料是一個迭代器， 整個方法的返回值是 RDD[String]，
跟map類似，但map是把資料一條一條的處理，mapPartitions 是把資料一個分割槽一個
分割槽的處理,把資料放到記憶體。在資料量小時，推薦使用mapPartitions，在資料量大時
可能會出現記憶體溢位oom

14、rdd.distinct()會發生shuffle，去重，返回型別RDD[Int]與rdd有關。
distinct底層呼叫的是ReduceByKey


15、rdd.coalesce(2，flag:Boolan)， 設定分割槽數，有兩個引數，第一個是表示設定的分
區個數，第二是預設是false，表示不進行shuffle，返回值是RDD[(String,Int)],呼叫的
rdd的型別一樣。在不進行shuffle時，設定分割槽只能設定的小，不能設定大。把分割槽設定小
時會把 其中的某一個分割槽一下全分給另一個分割槽，比如一共有3分割槽，現在設定成2個，
會把其中的一個第3個分割槽中的資料全部給另2，而不是把第3個分割槽中的資料分散到分割槽1、2
上，不會發生shuffle。把分割槽設大時，一定會發生shuffle，會把其中分割槽中的部分資料拿
出來給新的分割槽，一定會出現shuffle。所以分割槽數預設是隻能設小，不能變大，如果設的大
了，還是按原來的分割槽 。想要變大，可以把引數設定成true，進行shuffle，預設是不
進行shuffle

16、rdd.rePartitions(分割槽數，Boolean) 方法可以調整分割槽數，預設會發生shuffle，
底層相當於呼叫了rdd.coalesce(true)方法，會發生Shuffle，
一般情況下，都需要把分割槽個數調大，會發生shuffle，把分割槽中的部分資料分給其他的新的
分割槽，所以會發生shuffle



17、val mpwi:[String] = rdd2.mapPartitionsWithIndex((index: Int, it: Iterator[(String, Int)]) => {it.map(e => s"Part : $index, ele : $e")
}) 
 獲取資料和分割槽號，index是分割槽號，it:Iterator 是一個分割槽的資料，該方法引數是一個
 函式,該方法的返回值是與iterator中的map方法一樣
還可以使用：，把partFunction當做引數傳到mapPartitions方法中





Action：
1、collect 無shuffle：返回的是Array型別，列印的話需要toBuffer
2、sum 無shuffle:返回值是double型別
3、reduce(_+_)  :可以用於替換sum, 返回值與呼叫的值有關
4、rdd.countByKey()有shuffle，計算相同的key出現的次數，與value無關，返回值是collection.Map[String, Long]， String是指的是Key,Long指的是相同key出現的次數。底層實現是reduceByKey，
def countByKey(): Map[K, Long] = self.withScope {
  self.mapValues(_ => 1L).reduceByKey(_ + _).collect().toMap
}，把value都換成1，在求相同key 的和
5、count ，計數
6、take，可以用於求topN, 獲取指定的幾條資料
7、foreach
8、saveAsTextFile
9、foreachPartition

總結常用的Transformation運算元和Action運算元，及基本用法

只有是Action時，才會執行立即操作。 Transformation是 lazy的操作，不會立即執行，執行Transformation的運算元時，會返回一個新的RDD,依賴上一個RDD transformation： 1、sortBy ：對於RDD的是非元組型，rdd1.soreB

spark transformation和action運算元

spark transformation和action的運算元 map(func) 返回一個新的分散式資料集，由每個原元素經過func函式處理後的新元素組成 filter(func) 返回一個新的資料集，由經過func函式處理後返回值為true的原元素組

Spark Transformation和Action運算元速查表

Transformation運算元 Transformation運算元作用 map(func) 返回一個新的分散式資料集，其中每個元素都是由源RDD中每一個元素經過fun

總結常用string方法和Arrat方法

bold ont upper 顯示 substring arc rep nsh arr String 對象方法concat 字符串拼接fontcolor 給字符串變色fontsize 字符串字體大小（0-7）italics() 斜體字符串Indexof 從前往後查

Android Sutdio的常用快捷鍵和必備外掛，繪製介面和除錯應用

常用快捷鍵程式碼跳轉描述：跳轉是為了方便程式碼位置的定位，存在兩種跳轉：在定義處可以跳轉到呼叫處，在呼叫處可以跳轉到定義處。快捷鍵：Ctrl + 滑鼠單擊方法間跳轉描述：從一個類方法跳轉到臨近的一個類方法。快捷鍵：Alt + Up/Down

Spark 兩個RDD按key合併(join運算元和cogroup運算元)

在工作中經常遇到需要合併RDD的情況，記錄下處理情況。join和cogroup運算元都能達到要求，按key合併，只是當rdd存在多個相同的key時候，最終的輸出結果不一樣。網上找到了處理情況，自己也測試了，程式碼如下： object Test { def main(ar

【OpenCV】影象變換（二）邊緣檢測：梯度運算元、Sobel運算元和Laplace運算元

邊緣邊緣(edge)是指影象區域性強度變化最顯著的部分。主要存在於目標與目標、目標與背景、區域與區域(包括不同色彩)之間，是影象分割、紋理特徵和形狀特徵等影象分析的重要基礎。影象強度的顯著變化可分為： •階躍變化函式，即影象強度在不連續處的兩邊的畫

Python 影象處理 OpenCV （12）： Roberts 運算元、 Prewitt 運算元、 Sobel 運算元和 Laplacian 運算元邊緣檢測技術

![](https://cdn.geekdigging.com/opencv/opencv_header.png) 前文傳送門： [「Python 影象處理 OpenCV （1）：入門」](https://www.geekdigging.com/2020/05/17/5513454552/) [「Pyt

Python 影象處理 OpenCV （13）： Scharr 運算元和 LOG 運算元邊緣檢測技術

![](https://cdn.geekdigging.com/opencv/opencv_header.png) 前文傳送門： [「Python 影象處理 OpenCV （1）：入門」](https://www.geekdigging.com/2020/05/17/5513454552/) [「Pyt

Shell腳本（腳本結構和執行方法，date命令用法，腳本中的變量）

cal 方式 spa 12月自動化復制自定義函數 soft 變量 Shell是什麽Shell是一種腳本語言，和傳統語言C，Python...相比還是比較簡單的。可以使用邏輯判斷，循環等語法可以自定義函數shell是系統命令的集合shell腳本可以實現自動化運維，能大大

NSMutableString和NSString區別，及相互轉換方法

NSString是一個不可變的字串物件。這不是表示這個物件宣告的變數的值不可變，而是表示它初始化以後，你不能改變該變數所分配的記憶體中的值，但你可以重新分配該變數所處的記憶體空間。而NSMutableString是可變的，意味著你可以追加它的記憶體空間，或者修改它所分配的記憶體空間中的值。因

迴歸和分類區別，及模型的選擇

轉自http://my.oschina.net/zzw922cn 本文主要介紹了迴歸問題與分類問題的不同應用場景以及它們訓練演算法的不同之處 1.迴歸問題的應用場景迴歸問題通常是用來預測一個值，如預測房價、未來的天氣情況等等，例如一個產品的實際價格為500元，通

wireshark抓包和lua語言，及RTMP協議解析

最開始用netmon(microsoft network monitor 3.4)分析協議，寫了一個npl指令碼，協議分析快完的時候才發現，原來netmon解析會有問題（似乎會丟資料），而且npl的程式設計性較差。後來同事說wireshark抓包不錯，就換了wireshar

javascript中對錶單的submit驗證以及action提交，及它們的區別。

這裡有一篇學習中程式碼，以作分析 <html> <script language="javascript"> function on_submit() {//驗證資料的合法

繪製直線，及基本的資料型別

#include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> #include <opencv2/core/core.hpp> #include <iostream

Django2.0-驗證和授權(1)-User模型基本用法

授權系統 Django有一個內建的授權系統。包括：使用者。許可權。分組。一個可以配置的密碼雜湊系統。一個可插拔的後臺管理系統。預設中建立完一個django專案後，其實就已經集成了授權系統。在INSTALLED_AP

JSONObject和JSONArray區別及基本用法

一、JSONObject和JSONArray的資料表示形式 JSONObject的資料是用 { } 來表示的，例如： { "id" : "123", "courseID" : "huangt-test", "title" : "提交作業", "

hadoop偽叢集的安裝，及基本概念。

導讀偽叢集的意思就是說我們可以在多臺計算機上面安裝hadoop，但是不具有高可用和共容錯，這適用於開發環境。我們首先下載hadoop的安裝包，我使用的cdh版本的5.14.0，你可以在該網址找到他，首先我們說一下hadoop的配置檔案的分類： hadoop的配置

Mybatis中，當插入資料後，返回最新主鍵id的幾種方法，及具體用法

一、前言　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　資料庫操作怎能少了INSERT操作呢？下面記錄MyBatis關於INSERT操作的筆記，以便日後查閱。二、 insert元素屬性詳解　　　　　　　　　　　　　　　　　　　　　　　　　　　　其

sed，awk，grep基本用法

grep：文字搜尋 grep ‘w[ea]ll’ file_name 在file_name檔案中找到wall 或者是well 所在的所有行並顯示 grep ‘w[^e]ll’ file_name 在file_name檔案中找到”非well” 所在的所有行並顯示 grep

總結常用的Transformation運算元和Action運算元，及基本用法

相關推薦