spark學習進度06（RDD的Map運算元、FlatMap運算元、ReduceByKey運算元）

阿新 • • 發佈：2021-01-08

一、Map運算元：

作用

把 RDD 中的資料一對一的轉為另一種形式

呼叫

def map[U: ClassTag](f: T ⇒ U): RDD[U]

引數

f→ Map 運算元是原RDD → 新RDD的過程, 這個函式的引數是原 RDD 資料, 返回值是經過函式轉換的新 RDD 的資料

注意點

Map 是一對一, 如果函式是String → Array[String]則新的 RDD 中每條資料就是一個數組

@Test
  def mapTest():Unit={
    //先建立一個RDD
    val rdd1 = sc.parallelize(Seq(1,2,3))
     
//執行map
    val rdd2 = rdd1.map(item => item*10)
    //得到結果
    val result = rdd2.collect()
    //結果輸出
    result.foreach(item => println(item))
  }

二、FlatMap運算元：

作用

FlatMap 運算元和 Map 運算元類似, 但是 FlatMap 是一對多

呼叫

def flatMap[U: ClassTag](f: T ⇒ List[U]): RDD[U]

引數

f→ 引數是原 RDD 資料, 返回值是經過函式轉換的新 RDD 的資料, 需要注意的是返回值是一個集合, 集合中的資料會被展平後再放入新的 RDD

注意點

flatMap 其實是兩個操作, 是map + flatten, 也就是先轉換, 後把轉換而來的 List 展開

  //flatmap運算元
  @Test
  def flatMapTest():Unit={
    //建立RDD
    val rdd1 = sc.parallelize(Seq("Hello lilty","hello wen","lilty Hello"))
    //處理資料
    val rdd2 = rdd1.flatMap(item => item.split(" "))
    //得到結果
    val result=rdd2.collect()
     
//列印
    result.foreach(item => println(item))
    //關閉sc
    sc.stop()
  }

flatMap也是轉換，他可以把陣列和集合展開，並且flatMap中的函式一般也是集合或者陣列

三、ReduceByKey運算元：

作用

首先按照 Key 分組, 接下來把整組的 Value 計算出一個聚合值, 這個操作非常類似於 MapReduce 中的 Reduce

呼叫

def reduceByKey(func: (V, V) ⇒ V): RDD[(K, V)]

引數

func → 執行資料處理的函式, 傳入兩個引數, 一個是當前值, 一個是區域性彙總, 這個函式需要有一個輸出, 輸出就是這個 Key 的彙總結果

注意點

ReduceByKey 只能作用於 Key-Value 型資料, Key-Value 型資料在當前語境中特指 Tuple2
ReduceByKey 是一個需要 Shuffled 的操作

和其它的 Shuffled 相比, ReduceByKey是高效的, 因為類似 MapReduce 的, 在 Map 端有一個 Cominer, 這樣 I/O 的資料便會減少

 //reduceByKey運算元
  @Test
  def reduceByKeyTest():Unit={
    //建立RDD
    val rdd1 = sc.parallelize(Seq("Hello lilty","hello wen","lilty Hello"))
    //處理資料
    val rdd2 = rdd1.flatMap(item => item.split(" ")).map(item => (item,1)).reduceByKey((curr,agg)=>curr+agg)
    //得到結果
    val result=rdd2.collect()
    //列印
    result.foreach(item => println(item))
    //關閉sc
    sc.stop()
  }

reduceByKey第一步是按照Key進行分組，然後對每一組進行聚合得到結果

spark學習進度06（RDD的Map運算元、FlatMap運算元、ReduceByKey運算元）

一、Map運算元：作用把 RDD 中的資料一對一的轉為另一種形式呼叫 def map[U: ClassTag](f: T ⇒ U): RDD[U]

spark學習進度05（RDD概念、程式碼、三種建立方式）

一、RDD概念 1、RDD在哪裡： 2、RDD是什麼：是一個容錯的, 並行的資料結構, 可以讓使用者顯式地將資料儲存到磁碟和記憶體中, 並能控制資料的分割槽.RDD 作為資料結構, 本質上是一個只讀的分割槽記錄集合. 一個

spark學習進度17（Catalyst優化器、dataset介紹、dataframe介紹）

RDD 和 SparkSQL 執行時的區別 RDD的執行流程大致執行步驟先將RDD解析為由Stage組成的DAG, 後將Stage轉為Task直接執行

spark學習進度11（RDD分割槽和我shuffle以及快取）

一、RDD的分割槽和Shuffle 目標 RDD 的分割槽操作 Shuffle 的原理分割槽的作用 RDD 使用分割槽來分散式並行處理資料, 並且要做到儘量少的在不同的 Executor 之間使用網路交換資料, 所以當使用 RDD 讀取資

spark學習進度12（RDD的Checkpoint）

1. Checkpoint 目標 Checkpoint 的作用 Checkpoint 的使用、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斬斷 RDD 的依賴鏈, 並且將資料儲存在可靠的儲存引擎中, 例如支援分散式儲存和副本機制

spark學習進度13（spark和高階特效）

　　　　這一節基本上全是概念：：：更新的幾種寫法：部署：邏輯：其實 RDD 並沒有什麼嚴格的邏輯執行圖和物理執行圖的概念, 這裡也只是借用這個概念, 從而讓整個 RDD 的原理可以解釋, 好理解.

spark學習進度26（spark sql程式設計初級實踐）

Spark SQL 基本操作：將下列 JSON 格式資料複製到 Linux 系統中，並儲存命名為 employee.json。

機器學習進度01（sklearn、字典特徵抽取、文字特徵抽取（CountVectorizer、TfidfVevtorizer）、中文文字特徵抽取）

sklearn資料集 1 scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*()

機器學習進度03（instacart降維案例、總結）

案例：探究使用者對物品類別的喜好細分降維資料如下： order_products__prior.csv：訂單與商品資訊

Spark學習進度2

入門第一個應用的執行進入 Spark 安裝目錄中 cd /export/servers/spark/ 執行 Spark 示例任務

H5學習第一天（VSCode工具生成的骨架標籤新增程式碼）

VSCode工具生成的骨架標籤新增程式碼講解　　　　1.<!DOCTYPE>標籤　　　　<!DOCTYPE>文件型別宣告，作用就是告訴瀏覽器使用哪種HTML版本來顯示網頁。

MySQL學習之DQL（查詢語言之1，2，3）

一、DQL（查詢）　　1.基礎查詢 # 進階1：基礎查詢 /* select 查詢內容（可以讀個） from 表名；

第165天學習打卡（專案穀粒商城 7 ES6 ECMAScript6.0 ）

ES6（ECMAScript6.0）是JavaScript語言的下一代標準. ECMAScript是瀏覽器指令碼語言的規範，而熟知的各種js語言，如javascript則是規範的具體實現。

第267天學習打卡（知識點回顧 springboot返回值解析器原理）

知識點回顧 springboot返回值解析器原理 HandlerMethodReturnValueHandlerhandlerReturnValuehandlerReturnType

Spark學習筆記（一）Spark初識【特性、組成、應用】

本文例項講述了Spark基本特性、組成、應用。分享給大家供大家參考，具體如下：

Spark學習筆記（二）Spark2.3 HA叢集的分散式安裝圖文詳解

本文例項講述了Spark2.3 HA叢集的分散式安裝。分享給大家供大家參考，具體如下：

Spark學習筆記（三）-Spark Streaming

Spark Streaming支援實時資料流的可擴充套件（scalable）、高吞吐（high-throughput）、容錯（fault-tolerant）的流處理（stream processing）。

第三天學習進度--文字情感分類（二）

昨天在情感處理的學習中瞭解到了關於word2vec的用法，今天我們繼續康康doc2vec究竟在情感分類的過程中是如何使用的。

併發程式設計學習筆記（二十六、ConcurrentHashMap，Java8 HashMap簡述）

目錄：學習準備類核心屬性、內部類、建構函式介紹雜湊衝突（雜湊碰撞） put()方法原始碼分析

第五天學習進度--(KBQA)初接觸知識圖譜之靜態知識提取（二）

昨天學習到對應的知識圖譜在networkx的構建，在此先前的程式碼上，新增一部分的程式碼，用來完成靜態知識的提取。