1.3RDD的設計與執行原理

阿新 • • 發佈：2018-12-10

提供一種通用的資料抽象

RDD典型的執行過程如下：

RDD讀入外部資料來源（或者記憶體中的集合）進行建立；
RDD經過一系列的“轉換”操作，每一次都會產生不同的RDD，供給下一個“轉換”使用；
最後一個RDD經“行動”操作進行處理，並輸出到外部資料來源（或者變成Scala集合或標量）。

例1：一個Spark的“Hello World”程式

這裡以一個“Hello World”入門級Spark程式來解釋RDD執行過程，這個程式的功能是讀取一個HDFS檔案，計算出包含字串“Hello World”的行數。

fileRDD = sc.textFile('hdfs://localhost:9000/test.txt')
def contains(line):
...     return 'hello world' in line
filterRDD = fileRDD.filter(contains)
filterRDD.cache()
filterRDD.count()

第1行程式碼從HDFS檔案中讀取資料建立一個RDD；第2、3行定義一個過濾函式;第4行程式碼對fileRDD進行轉換操作得到一個新的RDD，即filterRDD；第5行程式碼表示對filterRDD進行持久化，把它儲存在記憶體或磁碟中（這裡採用cache介面把資料集儲存在記憶體中），方便後續重複使用，當資料被反覆訪問時（比如查詢一些熱點資料，或者執行迭代演算法），這是非常有用的，而且通過cache()可以快取非常大的資料集，支援跨越幾十甚至上百個節點；第5行程式碼中的count()是一個行動操作，用於計算一個RDD集合中包含的元素個數。這個程式的執行過程如下：這個程式的執行過程如下： *  建立這個Spark程式的執行上下文，即建立SparkContext物件； *  從外部資料來源（即HDFS檔案）中讀取資料建立fileRDD物件； *  構建起fileRDD和filterRDD之間的依賴關係，形成DAG圖，這時候並沒有發生真正的計算，只是記錄轉換的軌跡； *  執行到第6行程式碼時，count()是一個行動型別的操作，觸發真正的計算，開始實際執行從fileRDD到filterRDD的轉換操作，並把結果持久化到記憶體中，最後計算出filterRDD中包含的元素個數。

1.3RDD的設計與執行原理

提供一種通用的資料抽象

RDD典型的執行過程如下：

1.3RDD的設計與執行原理

《RocketMQ技術內幕：RocketMQ架構設計與實現原理》—1.1.2　Eclipse除錯RocketMQ原始碼

Hadoop架構設計、執行原理具體解釋

jQuery技術內幕：深入解析jQuery架構設計與實現原理

jsp頁面元素與執行原理 Jsp與servlet的區別與聯絡

Spring IoC 容器的設計與實現原理

Hadoop技術內幕：深入解析MapReduce架構設計與實現原理 (大資料技術叢書).epub

2.1 Java編譯與執行

Storm架構與執行原理

火箭入門GXChain開發系列第一篇|簡介與執行原理

深入理解TensorFlow架構設計與實現原理 3 ：基礎概念

seajs模組載入與執行原理小記

AOP概念與執行原理

宜信開源|分散式任務排程平臺SIA-TASK的架構設計與執行流程

RT-Thread學習筆記1-啟動順序與執行緒建立

Spark2.1內部原理剖析與源碼閱讀、程序設計與企業級應用案例

jQuery架構設計與實現（2.1.4版本）

C++ 泛型程序設計與STL模板庫(1)---泛型程序設計簡介及STL簡介與結構

20162313苑洪銘 2017-2018-1 《程序設計與數據結構》第11周學習總結

20162307 2017-2018-1 《程序設計與數據結構》第11周學習總結

1.3RDD的設計與執行原理

提供一種通用的資料抽象

RDD典型的執行過程如下：

相關推薦