Spark筆記三之RDD,運算元

阿新 • • 發佈：2019-02-14

RDD核心概念

Resilientdistributed DataSet,彈性分散式資料集

1是隻讀的，分割槽記錄的集合物件

2分割槽(partition)是RDD的基本組成單位，其決定了平行計算的粒度。應用程式對RDD的轉換最終都是對其分割槽的轉換。

3使用者可以指定RDD的分割槽個數，如果不指定則預設程式分配到的CPU的core數

4每個分割槽被影射為一個block，在呼叫hdfs底層時此block對應於hdfs的block(預設128M)，spark通過blockManager來管理block是一個block管理器。

RDD的建立

例

sc.textFile("hdfs://shb01:9000/word").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).collect

1檔案系統載入

通過textFile從檔案系統(hive,hdfs)載入資料建立一個RDD

2RDD之間的轉換

例子中flatMap方法會產生RDD，之後在此RDD的基礎上每呼叫一個方法就會建立一個RDD，如果前面的父RDD如果不呼叫cache方法儲存則會消失。

3通過函式轉換

通過parallelize，makeRDD方法也可以轉換生成RDD

val rdd1 =sc.makeRDD(Array(("A",1),("B",2),("C",3)))

val rdd1 =sc.parallelize(Array(10,12,3,5,23))//sc.parallelize(seq, numSlices)

運算元

在spark中函式又稱為運算元，運算元分為兩大類轉換運算元(Transformations)和行動(Action)運算元.

轉換型運算元：不會立即執行，不會觸發計算通常使RDD之間互相轉換，轉換型運算元又分為value型運算元和key-value型運算元

行動行運算元：立即執行觸發DAG計算

Value型運算元：

Key-value型運算元：使用key-value型運算元必須引入SparkContext._

importorg.apache.spark.SparkContext._

運算元作用於rdd上，但由於rdd是由partition(分割槽)組成，所以運算元最終還是作用於分割槽上。

例：

val file =sc.textFile("hdfs://shb01:9000/word")

val errors = file.filter(line =>line.contains("ERROR")).count()

這是一個過濾日誌的程式碼，filter會在file基礎上再產生一個rdd，會作用於每個分割槽上然後得到一個新分割槽，這些新分割槽的總和組成一個rdd。另外一個分割槽對應一個task。

spark-core_包下的rdd類可以檢視運算元的定義

package org.apache.spark.rdd

分割槽依賴關係

運算元操作父rdd中的分割槽併產生子rdd和分割槽，父rdd如果不儲存就會被丟棄，一旦子rdd計算失敗就需要重新計算父rdd。Spark中通過rdd之間的依賴關係來確定需要重新計算那些父rdd。

依賴關係分為兩種窄依賴(NarrowDependencies)和寬依賴(Wide Dependencies)

窄依賴：子rdd的一個分割槽依賴一個或多個父rdd中的一個分割槽

寬依賴：子RDD中的一個分割槽依賴父RDD的兩個或多個或全部分割槽

窄依賴：重新計算時代價小，只需要計算一個partition在一臺機器上就能完成

寬依賴：重新計算時代價大，可能需要計算多個partition,而partition對應的是叢集中的block，而這些block很有可能會儲存在叢集的多個節點上。

所以一般需要將寬依賴的RDD進行快取

判斷寬依賴：

1一般情況下value型的運算元產生的RDD是窄依賴，key-value型的運算元產生的RDD是寬依賴。

2通過呼叫dependencies來判斷是那種分割槽依賴關係

顯示oneToOne是窄依賴,反之如果顯示shuffledRDD則是寬依賴

Spark筆記三之RDD,運算元

RDD核心概念 Resilientdistributed DataSet,彈性分散式資料集 1是隻讀的，分割槽記錄的集合物件 2分割槽(partition)是RDD的基本組成單位，其決定了平行計算的粒度。應用程式對RDD的轉換最終都是對其分割槽的轉換。 3使用者可以指定RD

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記三之銘文升級版

聚集配置文件 ssi path fig rect 擴展 str 控制臺銘文一級： Flume概述Flume is a distributed, reliable, and available service for efficiently collecting(收集),

Spark之RDD運算元-轉換運算元

RDD-Transformation 轉換（Transformation）運算元就是對RDD進行操作的介面函式，其作用是將一個或多個RDD變換成新的RDD。使用Spark進行資料計算，在利用建立運算元生成RDD後，資料處理的演算法設計和程式編寫的最關鍵部分，就是利用

JSP學習筆記三之response物件和request物件

接著上一篇，我們接著講JSP中的內建隱式物件。這篇部落格介紹的是request和response物件。 A. request物件 request物件是javax.servlet.http.HttpServletReq

spark筆記2之spark粗略執行流程

目錄一、Spark粗略的執行流程二、程式碼流程 1、建立一個SparkConf 2、建立一個上下文物件SparkContext 3、建立一個RDD 4、使用transformations類運算元進行各種各樣的資料轉換 5、使用Action類運算元觸發執行 6、關閉

mysql筆記三之條件、模糊、範圍查詢

1.-- 條件查詢滿足條件就能夠進入結果集 -- 比較運算子 -- > -- 查詢大於18歲的資

spark入門三（RDD基本運算）

1. RDD基本操作 val rdd1 = sc.parallelize(List(1,2,3,4,4)) 輸出結果：rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at paral

RocketMQ學習筆記三之【DefaultMQPushConsumer流量控制】

上一節我們已經把DefaultMQPushConsumer的大體流程分析了一下，從這節開始我們分析一部分訊息處理的細節問題。繼續在DefaultMQPushConsumerImpl的pullMessage方法中有個ProcessQueue，待會我們來分析這個佇列的作用。 public voi

Kafka筆記三之java操作

maven依賴，我使用的是版本是0.8.22，scala是2.11 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11&l

Openwrt研習筆記三之原始碼的下載和編譯

哎呀，昨天拉下一天的筆記沒寫，不過這也不能怪我，是我的網站伺服器出問題了，釋出不了….今天補上昨天的內容上一篇說到刷TL-WR703N的系統成openwrt，那些都是網上搜羅的，按照著做就好了，先學習才能進步嘛今天要記錄的內容有：下載原始碼，ubuntu13.04下編譯原始碼下載原始碼

spark學習13之RDD的partitions數目獲取

1解釋獲取RDD的partitions數目和index資訊疑問：為什麼純文字的partitions數目與HDFS的block數目一樣，但是.gz的壓縮檔案的partitions數目卻為1？ 2.程式碼： sc.textFile("/xubo/GR

Hadoop筆記三之Hdfs體系架構及各節點之間的Rpc通訊

前言： Rpc協議就是Server實現一個聲明瞭很多方法的介面並對外暴露此介面，Client通過呼叫此介面中宣告的方法向server傳送資訊從而實現了與server的通訊。介紹： Hdfs是分散式部署的，分為nameNode,seconda

Hive筆記三之內部表,外部表,分割槽表,桶表

內部表也稱為受控表，表中的資料受表定義影響，表刪除後表中資料隨之刪除。在COLUMNS_V2表中TBL_TYPE顯示為MANAGED_TABLE 表刪除後實際上是從hdfs上將t1目錄移到回收站中，另外刪除TBLS表中的表定義資訊 hive> drop ta

Elasticsearch筆記三之版本控制和外掛

版本控制 1：關係型資料庫使用的是悲觀鎖，資料被讀取後就被鎖定其他的執行緒就無法對其進行修改。 2：ex使用的是樂觀鎖，資料被讀取後其他程式還可以對其進行修改，而執行修改時發現此資料已經被修改則修改就會失敗，之後則由程式對此進行下一步處理。先通過-XGETD得到資料

Spark核心程式設計之RDD持久化詳解

RDD持久化原理 Spark非常重要的一個功能特性就是可以將RDD持久化在記憶體中。當對RDD執行持久化操作時，每個節點都會將自己操作的RDD的partition持久化到記憶體中，並且在之後對該RDD的反覆使用中，直接使用記憶體快取的partition。這樣的

Spark原始碼解讀之RDD構建和轉換過程

上一節講了Spark原始碼解讀之Context的初始化過程，發現其實一行簡單的new SparkContext(sparkConf)程式碼，spark內部會去做很多事情。這節主要講RDD的構建和轉換過

Spark效能調優-RDD運算元調優篇（深度好文，面試常問，建議收藏）

## RDD運算元調優不廢話，直接進入正題！ #### 1. RDD複用在對RDD進行運算元時，要避免相同的運算元和計算邏輯之下對RDD進行重複的計算，如下圖所示： ![RDD的重複計算](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210228_1.png)

spark筆記之RDD的緩存

process color RoCE 就是發現 mark 其他動作 blog Spark速度非常快的原因之一，就是在不同操作中可以在內存中持久化或者緩存數據集。當持久化某個RDD後，每一個節點都將把計算分區結果保存在內存中，對此RDD或衍生出的RDD進行的其他動作中重用

spark筆記之RDD容錯機制之checkpoint

原理 chain for 機制方式方法相對例如 contex 10.checkpoint是什麽（1）、Spark 在生產環境下經常會面臨transformation的RDD非常多（例如一個Job中包含1萬個RDD）或者具體transformation的RDD本身計算

Spark程式設計指南之三：RDD基本概念

RDD是什麼？ RDD(Resilient Distributed Dataset)，彈性分散式資料集，是Spark的核心資料結構抽象。它是彈性的，具有容錯能力，能夠重新計算失敗結點。它是分散式的，資料分佈在多個結點上。它是一個數據集，可以從外部載入資料，可以是文字檔案，JSON，

Spark筆記三之RDD,運算元

RDD核心概念

運算元

分割槽依賴關係

相關推薦