1. 程式人生 > >RDD算子、RDD依賴關系

RDD算子、RDD依賴關系

span 之間 依賴關系 概念 cal 一個 art ans part

RDD:彈性分布式數據集, 是分布式內存的一個抽象概念

RDD:1.一個分區的集合,

    2.是計算每個分區的函數 ,

   3.RDD之間有依賴關系

   4.一個對於key-value的RDD的Partitioner

5.一個存儲存取每個Partition的優先位置的列表

RDD算子:

Transformations:不會立即執行,只是記錄這些操作

Actions:計算只有在action被提交的時候才被觸發。

RDD依賴關系:

窄依賴指的是每一個父RDDPartition最多被子RDD的一個Partition使用

寬依賴指的是多個子RDDPartition

會依賴同一個父RDDPartition

RDD算子、RDD依賴關系