RDD基礎知識

阿新 • • 發佈：2019-01-08

RDD（彈性分散式資料集）作為spark的核心概念，RDD其實就是一個不可變的分散式的元素集合

什麼是彈性：在任何實收都能進行重新計算，當儲存RDD資料的一臺機器掛了，spark還可以使用這種特性來重新計算出丟掉的分割槽，對使用者也完全透明。

每個RDD都被分為多個分割槽，這些分割槽執行在叢集中的不同節點

建立RDD的方式有多種，一是主要讀取一個外部的資料集，二是在驅動器程式中的物件集合。

創建出RDD之後，支援兩種型別的操作： transformation和action操作。轉化操作由一個RDD生產一個新的RDD，但只會惰性計算這些RDD，action操作才是真正計算最終結果的。

spark的RDD會在每次對他們進行action操作時重新計算，如果想在多個action操作中重用同一個RDD，可以使用cache()或是RDD.persist()來將這個RDD快取起來。我們也可以將資料快取到不同的地方，比如，磁碟或是記憶體。如果所有操作都結束，則可以呼叫stop()操作結束。

eg 舉例如下:

1 >>> val rdd = sc.parallelize(Seq(("hadoop",3), ("spark",2), ("hive",1), ("hbase",3), ("java",2)))
2 >>> val resRdd= rdd.filter(_._2 == 3 
)
3 >>> resRdd.persist()
4 >>> resRdd.count()
5 >>> resRdd.first()

大概的spark程式工作方式：

從外部資料集或驅動程式中創建出RDD.
使用filter(),flatMap()等transformation操作對RDD進行轉化，定義新的RDD.
將重用的中間結果RDD進行cache()或是persist()操作（cache()和使用預設級別的persist()操作是相同意思的）。
使用action操作來觸發一次平行計算。

http://spark.apachecn.org/docs/cn/2.2.0/sql-programming-guide.html
spark中文官網（學習spark最好的方式就是讀官方文件）

Spark-RDD基礎知識

開篇背景介紹：在hadoop中一個獨立的計算，例如在一個迭代過程中，除可複製的檔案系統（HDFS）外沒有提供其他儲存的概念，這就導致在網路上進行資料複製而增加了大量的消耗，而對於兩個的MapReduce作業之間資料共享只有一個辦法，就是將其寫到一個穩定的外部儲存系統，如分

RDD基礎知識

RDD（彈性分散式資料集）作為spark的核心概念，RDD其實就是一個不可變的分散式的元素集合什麼是彈性：在任何實收都能進行重新計算，當儲存RDD資料的一臺機器掛了，spark還可以使用這種特性來重新計算出丟掉的分割槽，對使用者也完全透明。每個RDD都被分為多個分割槽，這些

Spring 基礎知識 - 依賴註入

ans factory control 自己 int pac java str actor 所謂的依賴註入是指容器負責創建對象和維護對象間的依賴關系，而不是通過對象本身負責自己的創建和解決自己的依賴。依賴註入主要目的是為了解耦，體現了一種“組合”的理念。無論是xml配置

Java基礎知識二次學習--第八章流

cti 註意 spa 基礎 2個 cnblogs images 方向視頻第八章流時間：2017年4月28日11:03:07~2017年4月28日11:41:54 章節：08章_01節視頻長度：21:15 內容：IO初步心得：所有的流在java.io包裏面

UVM系統驗證基礎知識0(Questasim搭建第一個UVM環境)

javascript基礎知識整理（不定時更新）

nsh firefox 可用 splice mage true size -1 對數 1.js中真與假的定義：　　真：true，非零數字，非空字符串，非空對象　　假：false，數字零，空字符串，空對象（null），undefined 2.使用for循環對json進

C#基礎知識-函數的定義和調用（五）

返回 {0} string 訪問修飾符容器列表 rdquo 所有 func 函數也可以稱為方法，可以很方便的把一些行為封裝到函數裏面，當調用這一函數時會把函數塊裏面的代碼按照順序執行，方法可以有多種形式，有無參數，有無返回值等。 1. 函數的定義函數定

C#基礎知識-流程控制的應用（四）

相關 ats 循環 nbsp 使用 logs 嘗試 exc 設置斷點流程控制我們在編程中運用到的地方非常的多，在上篇中僅僅只是簡單的介紹每一種的使用，並沒有運用到實例中，很難去理解它真正的作用。下面我們將實際的運用流程控制的代碼寫一些實例相關的程序，加深對流程控制的理解，

java基礎知識應用--雙色球開獎號碼

雙色球開獎 java基礎開獎號碼 public 　　雙色球是中國福利彩票的玩法，雙色球分為紅色球號碼區和藍色球號碼區，紅色球號碼區由1-33共３３個號碼組成，藍色球號碼區由1-16共１６個號碼組成，開獎號碼由6個不重復的紅色球號碼和1個藍色球號碼共７個數組成。　　首先要設置三個數組來分別保存

redis的一些分散的基礎知識

redis基礎知識 ant風格 redis簡單命令中午的時候學了redis一些基礎操作，簡單記錄一下，方便記憶1、redis是一種基於內存也可以持久化的 key - value分布式數據具，默認設置數據庫的數量為 16 個。如圖示，redis.conf配置文件中寫到，默認的數據庫的 db

網絡相關基礎知識

html tro 綜合布線裝修公司轉化 blog scn www 不同 1. Q：強電跟弱電怎麽區分？ A1：強電和弱電是俗稱了，工程上強電一般指的是建築電力安裝，照明、插座、配電房，根據各國的標準不同，基本上施工的都是110V或220的電力設備、管線安裝。弱電是指消

c語言-樹的基礎知識（一）

相交 ges 最大 .cn nbsp 分享 blog com lin 第一、樹的定義： 1.有且只有一個稱為根的節點 2.有若幹個互不相交的子樹，這些子樹本身也是一顆樹第二、專業術語：樹的深度：從根節點到最低層，節點的層數，稱之為樹的深度。

前端基礎知識總結

pla 部分一個知識法則總結情況元素保存一、html中alt和title的區別 1.alt是圖片的屬性值，當圖片無法加載的時候，會用alt屬性的值來替換圖片。 2.而title是圖片的標題，當鼠標移動到圖片上時，會顯示圖片的名稱。 [email

Redux學習筆記-基礎知識

事件處理學習筆記情況分發 .org 新的分數 class 特點 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px "Helvetica Neue"; color: #404040 } p.p2 { margin

jQuery筆記——基礎知識

就會 col cti 獲得通過重要我們 class mic jQuery是一個JavaScript庫，它通過封裝原生的JavaScript函數得到一整套定義好的方法。在jQuery程序中，不管是頁面元素的選擇、內置的功能函數，都是美元符號“$”

C#基礎知識-引用類型和值類型的區別（六）

值類型 type 調用執行 new 內存堆 ada ont 不同類在第一篇中我們介紹了C#中基本的15種數據類型，這15種數據類型中又分為兩大類，一種是值類型，一種是引用類型。值類型有sbyte、short、long、int、byte、ushort、uint、u

為Play初學者準備的Scala基礎知識

scala play 1 前言本文的主要目的是為了讓Play Framework的初學者快速了解Scala語言，算是一篇Play Framework的入門前傳吧。使用PlayFramework可以極大的提高開發效率，但是需要註意，PlayJava入門很簡單，我之前帶過一個實習小姑娘，有一點編程經驗，但

C語言基礎知識整理

除法當前 www 做到初步編寫 main函數配對十進制數用一個簡單的c程序例子，介紹C語言基礎知識的基本構成、格式、以及良好的書寫風格，使小夥伴對c語言有個初步認識。例1：計算兩個整數之和的c程序： #includemain(){int a,b,sum;

基礎知識

引入協議 ast nbsp 過程 fin 將不斷線 .get 線程或者鎖在並發變成在並發編程中的作用，類似於鉚釘和工字梁在土木工程中的作用。 java中主要的同步機制是關鍵字synchroinzed，它提供了一種獨占的加鎖方式，但“同步”這個術語還包括voliatile

MySQL數據庫基礎知識002

highlight 刪除 blog var 自動包括 fill 區別 tab 一、My yS SQ QL L 支持的數據類 1、對於整型數據，MySQL 還支持在類型名稱後面的小括號內指定顯示寬度，例如 int(5)表示當數值寬度小於 5 位的時候在數字前面填

RDD基礎知識

相關推薦