Spark RDD與MapReduce

阿新 • • 發佈：2018-12-20

什麼是Map、什麼是Reduce

MapReduce是一個分散式程式設計計算模型，用於大規模資料集的分散式系統計算。

我個人理解，Map（對映、過濾）就是對一個分散式檔案系統（HDFS）中的每一行（每一塊檔案）執行相同的函式進行處理；

Reduce（規約、化簡）就是對Map處理好的資料進行兩兩運算，因此reduce函式必須要有兩個引數。

Map/Reduce的執行原理其實可以參考python的map/reduce函式：

https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/00141861202544241651579c69d4399a9aa135afef28c44000

Spark中的MapReduce

RDD（Resilient Distributed Dataset）叫做彈性分散式資料集，是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點：自動容錯、位置感知性排程和可伸縮性。RDD允許使用者在執行多個查詢時顯式地將工作集快取在記憶體中，後續的查詢能夠重用工作集，這極大地提升了查詢速度。

RDD也支援常見的MapReduce操作。

RDD操作：

- 轉換操作：
  
  每一次轉換操作都會產生不同的RDD，供給下一個“轉換”使用。轉換得到的RDD是惰性求值的，並不會發生真正的計算，只是記錄了轉換的軌跡，只有遇到行動操作時，才會發生真正的計算。
  - filter(func)：篩選出滿足函式func的元素，並返回一個新的資料集
  - map(func)：將每個元素傳遞到函式func中，並將結果返回為一個新的資料集
  - flatMap(func)：與map()相似，但每個輸入元素都可以對映到0或多個輸出結果
  - groupByKey()：應用於(K,V)鍵值對的資料集時，返回一個新的(K, Iterable)形式的資料集
  - reduceByKey(func)：應用於(K,V)鍵值對的資料集時，返回一個新的(K, V)形式的資料集，其中的每個值是將每個key傳遞到函式func中進行聚合。
    
    reduceByKey 函式應用於（Key，Value）格式的資料集。
    reduceByKey 函式的作用是把 key 相同的合併。
    reduceByKey 函式同樣返回一個（Key，Value）格式的資料集。
- 行動操作：
  
  行動操作是真正觸發計算的地方。從檔案中載入資料，完成一次又一次轉換操作
  - count() 返回資料集中的元素個數
  - collect() 以陣列的形式返回資料集中的所有元素
  - first() 返回資料集中的第一個元素
  - take(n) 以陣列的形式返回資料集中的前n個元素
  - reduce(func) 通過函式func（輸入兩個引數並返回一個值）聚合資料集中的元素
  - foreach(func) 將資料集中的每個元素傳遞到函式func中執行。

https://www.jianshu.com/p/4f074889bbd9

https://lixh1986.iteye.com/blog/2345420

Spark RDD與MapReduce

什麼是Map、什麼是Reduce MapReduce是一個分散式程式設計計算模型，用於大規模資料集的分散式系統計算。我個人理解，Map（對映、過濾）就是對一個分散式檔案系統（HDFS）中的每一行（每一塊檔案）執行相同的函式進行處理； Reduce（規約、化簡）就是對Map處理好的資料進行兩兩運算，

Spark筆記整理（二）：RDD與spark核心概念名詞

大數據 Spark [TOC] Spark RDD 非常基本的說明，下面一張圖就能夠有基本的理解： Spark RDD基本說明 1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數據集)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全

spark原理和spark與mapreduce的最大區別

參考文件:https://files.cnblogs.com/files/han-guang-xue/spark1.pdf 參考網址:https://www.cnblogs.com/wangrd/p/6232826.html 對於spark個人理解: 　　spark與mapreduce最

Spark技術體系與MapReduce，Hive，Storm幾種技術的關係與區別

大資料體系架構： Spark記憶體計算與傳統MapReduce區別： SparkSQL與Hive的區別: SparkSQL替換的是Hive的查詢引擎，Hive是一種基於HDFS的資料倉庫，並且提供了基於SQL模型的，針對存了大資料的資料倉庫，進行分散式互動查

Spark四大特性以及與MapReduce比較

一、速度面向磁碟的MapReduce受限於磁碟讀/寫效能和網路I/O效能的約束，在處理迭代計算、實時計算、互動式資料查詢等方面並不高效，但是這些卻在圖計算、資料探勘和機器學習等相關應用領域中非常常見。針對這一不足，將資料儲存在記憶體中並基於記憶體進行計算是一個

Spark RDD collect與collectPartitions

確切的應該說是RDD collect^_^ 1.collect的作用 Spark內有collect方法，是Action操作裡邊的一個運算元，這個方法可以將RDD型別的資料轉化為陣列，你可以隨時val arr = data.collect（），將RDD型別資

Spark與MapReduce的區別

　　Spark中最核心的概念是RDD(彈性分散式資料集)，近年來，隨著資料量的不斷增長，分散式叢集平行計算(如MapReduce、Dryad等)被廣泛運用於處理日益增長的資料。這些設計優秀的計算模型大都具有容錯性好、可擴充套件性強、負載平衡、程式設計方法簡單等優

spark RDD操作map與flatmap的區別

以前總是分不清楚spark中flatmap和map的區別，現在弄明白了，總結分享給大家，先看看flatmap和map的定義。 map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成

[2.2]Spark DataFrame操作（二）之通過反射實現RDD與DataFrame的轉換

參考場景檔案/home/pengyucheng/java/rdd2dfram.txt中有如下4條記錄： 1,hadoop,11 2,spark,7 3,flink,5 4,ivy,27 編碼實現：查詢並在控制檯打印出每行第三個欄位值大於7

Spark的簡單介紹（與MapReduce對比）

1.spark計算引擎： 1.快速 DAG（有向無環圖） Memory 2.通用 spark sparkSQL、SparkStreaming等相當於在spark平臺上的 jar包需要時直接以Jar包的方式匯入 2執行模式. H

[2.3]Spark DataFrame操作（二）之通過程式設計動態完成RDD與DataFrame的轉換

參考場景一、上一篇部落格將待分析資料影射成JavaBean的欄位，然後通過def createDataFrame(data:java.util.List[_],beanClass:Class[_]):DataFrame完成了RDD與DataFra

spark RDD 的map與flatmap區別說明

HDFS到HDFS過程看看map 和flatmap的位置Flatmap 和map 的定義 map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成新的RDD例子：val rdd = sc

【spark 深入學習 03】Spark RDD的蠻荒世界

解釋不難特性 bsp resid 易懂優化方式序列 RDD真的是一個很晦澀的詞匯，他就是伯克利大學的博士們在論文中提出的一個概念，很抽象，很難懂；但是這是spark的核心概念，因此有必要spark rdd的知識點，用最簡單、淺顯易懂的詞匯描述。不想用學術話的語言來

Spark RDD

存儲系統 orm cnblogs 集合 ans transform 匹配優化進行梗概： RDD 其實就是分布式的元素集合。在Spark中，對數據的所有操作不外乎創建RDD、轉化已有RDD 以及調用RDD 操作進行求值。而在這一切背後，Spark會自動將

Spark入門實戰系列--2.Spark編譯與部署（中）--Hadoop編譯安裝

二進制包 1.10 不能 mapr 修復 att 機器 mave end 【註】該系列文章以及使用到安裝包/測試數據能夠在《[傾情大奉送–Spark入門實戰系列] (http://blog.csdn.net/yirenboy/article/deta

Spark訪問與HBase關聯的Hive表

刪除 sql 也會影響 ron ble lec lang nbsp 知識點1：創建關聯Hbase的Hive表知識點2：Spark訪問Hive 知識點3：Spark訪問與Hbase關聯的Hive表知識點1：創建關聯Hbase的Hive表兩種方式創建，內部表和外部表

Spark RDD操作記錄(總結)

操作記錄 collect () 求和 bsp 數據排序 red cas 創建ListintRDD = sc.parallelize(List(1,2,3,4,5))過濾包含stringRDD.filter(_.contains("a")).collect()去重strin

Spark RDD轉換為DataFrame

person true line ted struct ger fields text san #構造case class，利用反射機制隱式轉換 scala> import spark.implicits._ scala> val rdd= sc.text

Spark RDD(Resilient Distributed Dataset)

com hdf 函數式 set 分享圖片 strong .cn 任務 apr 基於數據集的處理：從物理存儲上加載數據，然後操作數據，然後寫入物理存儲設備。比如Hadoop的MapReduce。缺點：1.不適合大量的叠代 2. 交互式查詢 3. 不能復用曾

Spark Streaming與Storm

width nim str tty partition rom http 圖片 inf Spark Streaming處於Spark生態技術棧中，可以和Spark Core和Spark SQL無縫整合；而Storm相對來說比較單一；（一）概述 Spark Stream

Spark RDD與MapReduce

什麼是Map、什麼是Reduce

Spark中的MapReduce

RDD操作：

轉換操作：

行動操作：

Spark相關API文件

相關推薦