DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因

阿新 • • 發佈：2022-03-16

DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因

DStream、RDD、DataFrame 的相互轉換
spark 比 MapReduce 快的原因

DStream、RDD、DataFrame 的相互轉換

DStream → RDD → DataFrame

package com.shujia.stream

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Duration, Durations, StreamingContext}

object Demo4DStoRDD {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession
      .builder()
      .master("local[2]")
      .appName("stream")
      .config("spark.sql.shuffle.partitions", 1)
      .getOrCreate()

    //需要加上隱式轉換 -- RDD → DataFrame 
    import spark.implicits._

    val sc: SparkContext = spark.sparkContext

    val ssc = new StreamingContext(sc, Durations.seconds(5))

    val linesDS: ReceiverInputDStream[String] = ssc.socketTextStream("master", 8888)

    /**
      * DStream 底層是不斷重複計算的rdd,
      * 可以將DStream轉換成RDD來使用
      *
      * foreachRDD相當於一個迴圈，每隔5秒執行一次，rdd的資料是當前batch接收到的資料
      *
      */

    linesDS.foreachRDD((rdd: RDD[String]) => {

      /*val kvRDD: RDD[(String, Int)] = rdd.flatMap(_.split(",")).map((_, 1))
      val countRDD: RDD[(String, Int)] = kvRDD.reduceByKey(_ + _)
      countRDD.foreach(println)*/

      /**
        * RDD可以轉換成DF
        *
        */

      val linesDF: DataFrame = rdd.toDF("line")

      //註冊一張表
      linesDF.createOrReplaceTempView("lines")

      val countDF: DataFrame = spark.sql(
        """
          |select word,count(1) as c from (
          |select explode(split(line,',')) as word from lines
          |) as a group by word
          |
        """.stripMargin)

      countDF.show()

    })

    ssc.start()
    ssc.awaitTermination()
    ssc.stop()

  }
}

RDD → DStream

package com.shujia.stream

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Durations, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

object Demo5RDDtoDS {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession
      .builder()
      .master("local[2]")
      .appName("stream")
      .config("spark.sql.shuffle.partitions", 1)
      .getOrCreate()

    import spark.implicits._

    val sc: SparkContext = spark.sparkContext

    val ssc = new StreamingContext(sc, Durations.seconds(5))

    val linesDS: ReceiverInputDStream[String] = ssc.socketTextStream("master", 8888)

    /**
      * transform:傳入一個RDD，返回RDD並將之構建成DStream
      *
      * 將 DS 轉換成rdd之後，rdd沒有 有狀態運算元 ，所以不能進行全域性累加
      * transform:將 DS 轉換成RDD,使用rdd的 API,處理完之後返回一個新的rdd
      *
      */

    val tfDS: DStream[(String, Int)] = linesDS.transform((rdd: RDD[String]) => {


      val countRDD: RDD[(String, Int)] = rdd
        .flatMap(_.split(","))
        .map((_, 1))
        .reduceByKey(_ + _)

      //返回一個rdd,得到一個新的DS
      countRDD
    })

    tfDS.print()

    ssc.start()
    ssc.awaitTermination()
    ssc.stop()

  }
}

spark 比 MapReduce 快的原因

1、當對同一個rdd多次使用的時候可以將這個rdd快取起來

2、spark -- 粗粒度的資源排程，MapReduce -- 細粒度的資源排程

3、DAG有向無環圖

兩次shuffle的中間結果不需要落地

spark沒有MapReduce穩定，因為spark用記憶體較多

DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因

DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因目錄 DStream、RDD、DataFrame 的相互轉換

在Python中字串、列表、元組、字典之間的相互轉換

一、字串(str) 字串轉換為列表使用list()方法 str_1 = \"1235\" str_2 = \'zhangsan\' str_3 = \'\'\'lisi\'\'\'

Mat、uchar*、uchar[]之間的相互轉換

Mat preImg = imread(\"9.jpg\") Mat dst = Mat(preImg.size, CV_8UC3, Scalar(255, 255, 255)); //uchar*給Mat轉換資料的時候，需要先定義圖片的大小

Python_note_002(Python中的識別符號和保留字、資料型別以及資料型別的相互轉換、註釋寫法)

二進位制與字元編碼 Python中的識別符號和保留字保留字 # 檢視Python中的保留字-----------

時間、日期、時間戳的相互轉換

python中時間、日期、時間戳的轉換原文連結：https://www.cnblogs.com/jfl-xx/p/8024596.html

C++ 字串與整數、浮點數的相互轉換

整數、浮點數轉字串 std::to_string 定義於標頭檔案<string> std::stringto_string(intvalue);

golang 計算機補碼、反碼、補碼、進位制相互轉換

對於整數，有四種表示方式： 1)、二進位制：0,1 ，滿 2 進 1。在 golang 中，不能直接使用二進位制來表示一個整數，它沿用了 c 的特點。

Java中字元陣列、String類、StringBuffer三者之間相互轉換

一、StringBuffer與String的相互轉換 1、將StringBuffer轉換成String StringBuffer類成員toString函式可將其轉換成String型別。

C#byte[]、struct、intptr等的相互轉換

一、struct byte[]互相轉換 //struct轉換為byte[] public static byte[] StructToBytes(object structObj)

包裝類、基本資料型別、string之間的相互轉換

一.基本資料型別與包裝類之間的相互轉換 1.基本資料型別轉換為包裝類 int num3 =10;//定義一個基本資料型別Integer in1=new Integer(num3);//新建一個包裝類將int裝換為IntegerSystem.out.println(in1.toString());/

GPS、谷歌、百度、高德座標相互轉換 GPSHelper.js

GPSHelper.js var GPSHelper = { PI: 3.1415926535897932384626, x_pi: 3.1415926535897932384626, //* 3000.0 / 180.0, //轉換BD09時偏移

application.yml與application.properties檔案的相互轉換、屬性提取

package com.liftsail.testprofiledemo.utiltest; import org.springframework.util.CollectionUtils; import java.util.*;

【python】numpy中的array格式資料切片與pandas中的dataframe格式資料切片、相互轉換

技術標籤：python 1、將array資料轉為dataframe格式資料 import numpy as np import pandas as pd

Go 結構體、陣列、字典和 json 字串的相互轉換方法

Go 語言中 encoding/json 包可以很方便的將結構體、陣列、字典轉換為 json 字串。

MSSQL2008、2005資料庫匯入或從匯出mysql和相互轉換

SQL Server可以從低版本備份還原到高版本，但從高版本會出問題要用專門的工具，備份時要刪除預設的位置否則選位置時會有兩個備份位置，

Hive日期、時間轉換：YYYY-MM-DD與YYYYMMDD；hh.mm.ss與hhmmss的相互轉換

思路 YYYY-MM-DD與YYYYMMDD；hh-mm-ss與hhmmss的相互轉換有兩種辦法，第一種是利用UNIX時間戳函式，第二種是利用字串拼接函式。

Mysql 字串、時間、時間戳相互轉換，相減獲取秒數

涉及的函式date_format(date, format) 函式unix_timestamp() 函式str_to_date(str, format) 函式from_unixtime(unix_timestamp, format) 函式1.字串轉化成時間select str_to_date(\'2019-09-12 00:16:50\',\'%Y-%m-%

FastJson對於JSON格式字串、JSON物件及JavaBean之間的相互轉換

摘自：https://www.cnblogs.com/cdf-opensource-007/p/7106018.html fastJson對於json格式字串的解析主要用到了一下三個類：

時間戳、時間的相互轉換 java

import java.text.DateFormat;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;public class TestDate {/*** 時間戳轉換時間*/publicString stampToDate(String s){Simpl

【轉】Scala中json格式、字串、map相互轉換

像map一樣的json直接存值： import org.json.JSONObject def main(args: Array[String]): Unit = { val jsonObj :JSONObject= new JSONObject()

DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因

DStream、RDD、DataFrame 的相互轉換、spark 比 MapReduce 快的原因

DStream、RDD、DataFrame 的相互轉換

spark 比 MapReduce 快的原因

1、當對同一個rdd多次使用的時候可以將這個rdd快取起來

2、spark -- 粗粒度的資源排程，MapReduce -- 細粒度的資源排程

3、DAG有向無環圖

相關推薦