RDD彈性分布式數據集的基本操作

阿新 • • 發佈：2019-03-15

map() contex replace array lec sam 一行 carte key

RDD的中文解釋是彈性分布式數據集。
構造的數據集的時候用的是List(鏈表）或者Array數組類型
/* 使用makeRDD創建RDD */
/* List */
val rdd01 = sc.makeRDD(List(1,2,3,4,5,6))
val r01 = rdd01.map { x => x * x }
println(r01.collect().mkString(","))
/* Array */
val rdd02 = sc.makeRDD(Array(1,2,3,4,5,6))
val r02 = rdd02.filter { x => x < 5}
println(r02.collect().mkString( 
","))
 
val rdd03 = sc.parallelize(List(1,2,3,4,5,6), 1)
val r03 = rdd03.map { x => x + 1 }
println(r03.collect().mkString(","))
/* Array */
val rdd04 = sc.parallelize(List(1,2,3,4,5,6), 1)
val r04 = rdd04.filter { x => x > 3 }
println(r04.collect().mkString(","))

也可以直接用文件系統來構造

1 val rdd:RDD[String 
] = sc.textFile("file:///D:/sparkdata.txt", 1)
2 val r:RDD[String] = rdd.flatMap { x => x.split(",") }
3 println(r.collect().mkString(","))

RDD的操作分為轉化操作（transformation）和行為操作（action），

轉化操作和行為操作的本質區別

轉化操作使一個RDD轉化為另一個RDD而行動操作就是進行實際的計算

 1 val rddInt:RDD[Int] = sc.makeRDD(List(1,2,3,4,5,6,2,5,1))
 
 2 val rddStr:RDD[String] = sc.parallelize(Array("a","b","c","d","b","a"), 1)
 3 val rddFile:RDD[String] = sc.textFile(path, 1)
 4  
 5 val rdd01:RDD[Int] = sc.makeRDD(List(1,3,5,3))
 6 val rdd02:RDD[Int] = sc.makeRDD(List(2,4,5,1))
 7  
 8 /* map操作 */參數是函數，函數應用於RDD每一個元素，返回值是新的RDD
 9 println("======map操作======")
10 println(rddInt.map(x => x + 1).collect().mkString(","))
11 println("======map操作======")
12 /* filter操作 */參數是函數，函數會過濾掉不符合條件的元素，返回值是新的RDD
13 println("======filter操作======")
14 println(rddInt.filter(x => x > 4).collect().mkString(","))
15 println("======filter操作======")
16 /* flatMap操作 */參數是函數，函數應用於RDD每一個元素，將元素數據進行拆分，變成叠代器，返回值是新的RDD
17 println("======flatMap操作======")
18 println(rddFile.flatMap { x => x.split(",") }.first())
19 println("======flatMap操作======")
20 /* distinct去重操作 */沒有參數，將RDD裏的元素進行去重操作方法轉換操作生成一個只包含不同元素的一個新的RDD。開銷很大。 
21 println("======distinct去重======")
22 println(rddInt.distinct().collect().mkString(","))
23 println(rddStr.distinct().collect().mkString(","))
24 println("======distinct去重======")
25 /* union操作 */會返回一個包含兩個RDD中所有元素的RDD，包含重復數據。
26 println("======union操作======")
27 println(rdd01.union(rdd02).collect().mkString(","))
28 println("======union操作======")
29 /* intersection操作 */只返回兩個RDD中都有的元素。可能會去掉所有的重復元素。通過網絡混洗來發現共有元素
30 println("======intersection操作======")
31 println(rdd01.intersection(rdd02).collect().mkString(","))
32 println("======intersection操作======")
33 /* subtract操作 */返回只存在第一個RDD中而不存在第二個RDD中的所有的元素組成的RDD。也需要網絡混洗
34 println("======subtract操作======")
35 println(rdd01.subtract(rdd02).collect().mkString(","))
36 println("======subtract操作======")
37 /* cartesian操作 */計算兩個RDD的笛卡爾積，轉化操作會返回所有可能的(a,b)對，其中a是源RDD中的元素，而b則來自於另一個RDD。 
38 println("======cartesian操作======")
39 println(rdd01.cartesian(rdd02).collect().mkString(","))
40 println("======cartesian操作======")

以下是行動操作代碼

 1 val rddInt:RDD[Int] = sc.makeRDD(List(1,2,3,4,5,6,2,5,1))
 2 val rddStr:RDD[String] = sc.parallelize(Array("a","b","c","d","b","a"), 1)
 3  
 4 /* count操作 */返回RDD所有元素的個數
 5 println("======count操作======")
 6 println(rddInt.count())
 7 println("======count操作======")  
 8 /* countByValue操作 */各元素在RDD中出現次數
 9 println("======countByValue操作======")
10 println(rddInt.countByValue())
11 println("======countByValue操作======")
12 /* reduce操作 */並行整合所有RDD數據，例如求和操作
13 println("======reduce操作======")
14 println(rddInt.reduce((x ,y) => x + y))
15 println("======reduce操作======")
16 /* fold操作 */和reduce功能一樣，不過fold帶有初始值
17 println("======fold操作======")
18 println(rddInt.fold(0)((x ,y) => x + y))
19 println("======fold操作======")
20 /* aggregate操作 */和reduce功能一樣，不過fold帶有初始值
21 println("======aggregate操作======")
22 val res:(Int,Int) = rddInt.aggregate((0,0))((x,y) => (x._1 + x._2,y),(x,y) => (x._1 + x._2,y._1 + y._2))
23 println(res._1 + "," + res._2)
24 println("======aggregate操作======")
25 /* foeach操作 */對RDD每個元素都是使用特定函數就是遍歷
26 println("======foeach操作======")
27 println(rddStr.foreach { x => println(x) })
28 println("======foeach操作======")

.mapValues(x=>(x,1)).//mapValues是對值的操作,不操作key使數據變成(Tom,（26,1）)

map()指的是對key進行操作

mapValues()指的是對Values進行操作

first（）返回的是dataset中的第一個元素

take（n）返回前n個elements，這個是driverprogram返回的

takeSample(withReplacementnum,seed)抽樣返回一個dataset中的num個元素，隨機種子seed

saveAsTextFile(path)把dataset寫到一個textfile中，或者HDFS支持的文件系統中，spark把每條記錄都轉換為一行記錄，然後寫到file中

saveAsTextFile(path)只能用在key-value對上，然後生成SequenceFile寫到本地或者hadoop文件系統

saveAsObjectFile(path)把dataset寫到一個java序列化的文件中，用sparkContext，objectFile()裝載

countByKey（）返回的是key對應的個數的一個map.,作用與一個RDD

參考https://www.cnblogs.com/sharpxiajun/p/5506822.html加上自己的理解

transformation和action的主要區別

接口定義方式不同

1.Transformation:RDD[X]->RDD[Y]

2.Action:RDD[X]->Z(Z不是一個RDD，可能是基本類型，數組等）

執行方式也不同

Transformation只會記錄RDD轉化關系，並不會產生計算（惰性執行，LazyExecution）

Action是觸發程序執行（分布式）的算子

RDD彈性分布式數據集的基本操作

map() contex replace array lec sam 一行 carte key RDD的中文解釋是彈性分布式數據集。構造的數據集的時候用的是List(鏈表）或者Array數組類型/* 使用makeRDD創建RDD */ /* List */ val

SparkRDD之彈性分布式數據集RDD

oop src 選擇丟失 park 非循環 nal part 可用 2.RDD概述2.1什麽是RDDRDD（Resilient Distributed Dataset）叫做彈性分布式數據集，是Spark中最基本的數據抽象，它代表一個不可變、可分區、裏面的元素可並行計算的集

大數據技術學習：彈性分布式數據集RDD

clas 不但哈希數據丟失一個流水線 res 基於 spark 今天給大家分享的技術學習是：淺談彈性分布式數據集RDD。一、RDD定義 RDD（Resilient Distributed Dataset）叫做分布式數據集，是Spark中基本的數據抽象，它代表一個不

Lind.DDD.Caching分布式數據集緩存介紹

toolbar 中間件 erp dsw vid 集群 break auc var 戲說當年大叔原創的分布式數據集緩存在之前的企業級框架裏介紹過，大家可以關註《我心中的核心組件（可插拔的AOP）~第二回緩存攔截器》，而今天主要對Lind.DDD.Caching進行更全面的

分布式數據庫數據從屬與client與server的數據同步

又一 div 探討工作多系統維護數據修改由於老實說，眼下市面上很多產品，的確是不成熟的產品。用過一些，給人蛋痛的感覺。導言分布還是集總今天我們來探討一個非常重要的問題。每一個程序猿都有其思想，我的思想之中的一個，就是分布式。

分布式數據庫系統

小寫可用性結果主鍵約束忽略數據 -c man trac 一、分布式數據庫系統分布式數據庫系統分布式數據庫系統：物理上分散而邏輯上集中的數據庫系統. 物理上分散：指各網站分散在不同的地方。大可為不同國家。小可為同一建築物的不同位置。

阿裏10年分布式數據庫技術沈澱，AliSQL X-Cluster的應用實戰

阿裏分布式數據庫 alisql x-cluster 應用實戰 MySQL 數據庫從誕生以來就以簡單、易用、開源為主打特點，成為不少開發者首選的數據庫系統。阿裏集團在 2008 年開始提出"去 IOE"的口號，邁入了 MySQL 數據庫的時代。系統使用大量的 MySQL，配合業務的改造替代

將非正態分布的數據集轉化為正態分布的數據集

絕對值 img 數據正態分布需要 eight 分布原因轉化在統一的試驗條件下，有時會得到一個數據集，如果需要分析這類數據的分布特性，而這一數據集又不符合正態分布，則需要將該組數據做以下變換：這裏取‘1’的原因是，此地的r的絕對值是小於等於1的。將非正態分布的數

分布式數據庫筆記

分割混合整體 strong 數據庫保密擴展成本分布式系統分布式數據庫筆記分布式的基本要求數據分布性數據統一性數據透明性數據安全性可擴展性數據自治性分布式系統的優點靈活性更高成本優勢可靠性、

分布式數據倉庫中，全局和局部數據倉庫有何區別？

數據倉庫大部分企業建立和維護單一中央數據倉庫環境。政策、經濟和技術等諸多因素都更傾向於建立和維護單一中央數據倉庫環境。但是在某些特定場合，需要建立分布式數據倉庫環境。為了便於理解分布式數據倉庫何時有意義，我們先看一些處理的基本拓撲結構。某企業設有一個總部，負責處理所有的業務。若在局部層上存在某些業務處理，這些

從零開發分布式數據庫中間件一、讀寫分離的數據庫中間件（轉）

mark str 日誌系統 arraylist none views gpo arr 體系從零開發分布式數據庫中間件一、讀寫分離的數據庫中間件

分布式數據庫搭建詳細教程

詳細教程架構 spa 安裝完成基本由於一個 pos 分布式數據庫由於業務本身的需求，有時需要構建分布式數據庫。一個具有較好設計的分布式數據庫，對於用戶（調用者）來說透明，跟使用本地數據庫一樣。本文準備使用中間件的架構，實現分布式數據庫的構建。簡單點說，調用者與中

微服務架構下的分布式數據管理

數據庫更新 event 可擴展存儲展現文檔數據庫 and 持久化 class 1.1 分布式數據管理之痛點為了確保微服務之間松耦合，每個服務都有自己的數據庫, 有的是關系型數據庫（SQL），有的是非關系型數據庫（NoSQL）。開發企業事務往往牽涉到多個服務，要

分布式數據庫中間件Mycat百億級數據存儲（轉）

宣講 cobar 工程使用 join查詢標準 primary 高效數據此文轉自： https://www.jianshu.com/p/9f1347ef75dd 2013年阿裏的Cobar在社區使用過程中發現存在一些比較嚴重的問題，如高並發下的假死，心

分布式數據庫DDB

java 數據庫 DDB 通過中間件的形式為前臺提供一臺虛擬的數據庫服務器，而中間件在後臺實際管理著多個數據庫節點，允許將單張表分布到不同的數據庫節點上進行性能均衡。總體架構： master管理服務器，提供資源分配，負載統計等總多功能；DBN(database node)數據庫節點服務器；DBI(

分布式數據庫中間件之sharding-jdbc

sta math 進行 turn 使用 opened pri import 是我小編今天在做Sharding-jdbc時出現了一些問題，就上網百一百，發現網上的sharding-jdbc的參考是挺少的，唉還是要繼續學習看文檔。 Sharding-jdbc介紹 Shardi

分布式數據庫火了開源填補數據庫空白

數據庫分布式開源填補原文地址：http://digi.163.com/17/1114/06/D36B05G6001680N8.html 分布式數據庫在今年突然成為熱點技術。這背後究竟有哪些環境變化導致了這種技術演進，分布式數據庫的優勢在哪兒？這種分布式數據庫在國內現狀又是如何？數據庫演進方向

思考：真正的分布式數據庫是否讓“數據湖”概念成為歷史？

數據庫分布式數據湖原文地址：http://www.fromgeek.com/ai/152830.html 最近吳寧川一篇《厲害了，螞蟻金服！創造了中國自己的數據庫OceanBase》報道了OceanBase誕生的前因後果。內容非常詳實，值得分享。同時自己也分享幾點雜想：第一，殺熟不僅僅是大數

[轉文]簡單理解數學、密碼學、計算機、互聯網、分布式數據庫、區塊鏈、分布式賬本、密碼貨幣

尋求豪門主體數據互聯日子對象認識八卦數學是對實體，實體運行方式，實體之間關系，實體之間關系運行方式的形式化抽象，主要旨在追求人類可以理解的問題和可以解決的問題。密碼學是數學的二兒子，非常叛逆，專門跟他老爸數學作對，一心尋求人類不能解決的問題，並利用它

分布式數據庫中間件的實現原理介紹一：分庫分表【轉】

介紹 com CA 擴展 png HA 不同訂單號 order 聲明：本文並非原創，轉自華為雲幫助中心的分布式數據庫中間件（DDM）服務的產品介紹。分片是解決數據庫存儲容量限制的直接途徑。分片包括垂直分片與水平分片兩種方式。垂直分片垂直分片又叫縱向分割，

RDD彈性分布式數據集的基本操作

相關推薦