1. 程式人生 > >Spark中RDD是什麼?

Spark中RDD是什麼?

一、RDD是什麼?
RDD是一個彈性可復原的分散式資料集!

RDD是一個邏輯概念,一個RDD中有多個分割槽,一個分割槽在Executor節點上執行時,他就是一個迭代器。

一個RDD有多個分割槽,一個分割槽肯定在一臺機器上,但是一臺機器可以有多個分割槽,我們要操作的是分佈在多臺機器上的資料,而RDD相當於是一個代理,對RDD進行操作其實就是對分割槽進行操作,就是對每一臺機器上的迭代器進行操作,因為迭代器引用著我們要操作的資料!


二、RDD的五大特性
RDD是由多個分割槽組成的集合

每個分割槽上會有一個函式作用在上面,實現分割槽的轉換

RDD與RDD之間存在依賴關係,實現高容錯性

如果RDD裡面裝的是(K-V)型別的,有分割槽器

如果從HDFS這種檔案系統中建立RDD,會有最佳位置,是為了資料本地化

轉發
作者:一個蘿蔔丶 
來源:CSDN 
原文:https://blog.csdn.net/qq_41050480/article/details/79856266