Spark Streaming應用

阿新 • • 發佈：2021-01-26

技術標籤：Spark 大資料 spark hdfs hadoop

Spark Streaming應用

實驗目的

深入理解和掌握Spark Stream中DStream無狀態操作的方法；理解Spark Stream程式設計解決實際問題的方法。

實驗要求

掌握基於Spark Stream的Scala和Spark SQL程式設計環境配置；
掌握Spark Stream中DStream無狀態操作程式設計方法。

實驗內容

參考實驗二建立一個Spark專案
在Maven中配置Spark Streaming程式設計環境，pom.xml中新增：

<dependency>
	<groupId> 
org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.0.1</version>
</dependency>

若自己安裝的Spark不是3.0.1，則自己搜尋適合的spark-streaming版本

將MyReceiver.scala新增到專案中
MyReceiver生成的流資料格式：每次生成num個元素(視構造方法傳入的引數而定)，每個元素均是為字串，包含了3個100以內的隨機數，每個隨機數用空格隔開，例：

編寫MyStreaming.scala中的main方法以實現流處理

(1) 建立SparkContext和StreamingContext，設定時間間隔為3秒(參見PPT第6章3.3)

val conf = new SparkConf()
conf.setAppName("名字")
val sc = new SparkContext(conf)
val ssc = new SteamingContext(sc, Seconds(3))

(2) 使用receiverStream方法定義輸入源，採用自定義MyReceiver輸入源：

//lines為輸入源

val lines = ssc.receiverStream(new MyReceiver(5))

(3) 使用DStream的無狀態轉換運算元，計算輸入流lines中的資料；計算每個batch的所有數字的平均值
//對輸入流lines應用DStream轉換運算元提示，ds為轉換後的DStream

val ds = lines.map(x=>x.split(regx=" ").map(x=>x.toInt)).map(x=>x.sum/5)

(4) 使用foreachRDD儲存輸入流資料：
//遍歷DStream的所有RDD

lines.foreachRDD(x => {
if(x.count() > 0) {
//使用RDD的saveAsTextFile儲存RDD資料，儲存目錄以時間戳命名
x.saveAsTextFile("file:///root/rdds/rec" + new Date().getTime.toString)
}
})

(5) 使用foreachRDD儲存計算後的流資料：參考第(4)步程式碼，儲存目錄設定為/root/result/rec……（省略號部分用時間戳代替））

(6) 設定執行過程中列印資訊scc.print；使用scc.start啟動spark streaming，並設定結束條件scc.awaitTermination

編譯和執行：
按實驗二中的方法編譯打包並執行程式，Spark Streaming需要手動停止，執行一段時間後可按下ctrl+z強行停止
檢視結果：
開啟spark-shell，使用sc.textFile(“file:///root/rdds/") 讀取所有儲存的DSteam輸入源資料並顯示；使用sc.textFile("file:///root/result/”) 讀取所有儲存的計算結果資料並顯示。(注意：路徑後加*，表示提取所有子目錄中的檔案)

儲存結果預覽
在這裡插入圖片描述

程式碼

package cn.edu.swpu.scs
import java.util.Date
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}
object Streaming{
//當Receiver啟動時呼叫onStart方法
//一次啟動寫入到DStream的一個RDD的分割槽中
def main(args: Array[String]): Unit = {
// 建立SparkContext和StreamingContext，設定時間間隔為3秒  
val conf = new SparkConf()  
conf.setAppName("My Streaming")  
val sc = new SparkContext(conf)  
val ssc = new StreamingContext(sc, Seconds(3)) 
//使用receiverStream方法定義輸入源  
val lines = ssc.receiverStream(new MyReceiver(5))  
// 計算每個batch的所有數字的平均值  
val ds = lines.map(x=>x.split(" ").map(x=>x.toInt)).map(x=>x.sum/5)  
// 使用foreachRDD儲存輸入流資料  
lines.foreachRDD(x => {  
  if(x.count() > 0) {  
    // 使用RDD的saveAsTextFile儲存RDD資料，儲存目錄以時間戳命名  
    x.saveAsTextFile("hdfs://主機名或ip地址:埠號/檔案路徑" + new Date().getTime.toString)  
  }  
})  
// 使用foreachRDD儲存計算後的資料  
ds.foreachRDD(x => {  
  if(x.count() > 0) {  
    // 使用RDD的saveAsTextFile儲存RDD資料，儲存目錄以時間戳命名  
    x.saveAsTextFile("hdfs://主機名或ip地址:埠號/檔案路徑" + new Date().getTime.toString)  
  }  
})  
ds.print()  
ssc.start()  
ssc.awaitTermination()  
}
}

Spark Streaming應用

技術標籤：Spark大資料sparkhdfshadoop Spark Streaming應用實驗目的深入理解和掌握Spark Stream中DStream無狀態操作的方法；理解Spark Stream程式設計解決實際問題的方法。

Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明 Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下：

Spark 系列（十五）—— Spark Streaming 整合 Flume

一、簡介 Apache Flume 是一個分散式，高可用的資料收集系統，可以從不同的資料來源收集資料，經過聚合後傳送到分散式計算框架或者儲存系統中。Spark Straming 提供了以下兩種方式用於 Flume 的整合。

Spark 系列（十四）—— Spark Streaming 基本操作

一、案例引入這裡先引入一個基本的案例來演示流的建立：獲取指定埠上的資料並進行詞頻統計。專案依賴和程式碼實現如下：

Spark學習筆記（三）-Spark Streaming

Spark Streaming支援實時資料流的可擴充套件（scalable）、高吞吐（high-throughput）、容錯（fault-tolerant）的流處理（stream processing）。

深入理解Spark Streaming

一.DStream的兩類操作　　DStream內部其實是RDD序列，所有的DStream操作最終都轉換為RDD操作。通過分析原始碼，可以進一步窺探這種轉換是如何進行的。

Spark Streaming高吞吐、高可靠的一些優化

分享一些Spark Streaming在使用中關於高吞吐和高可靠的優化。目錄1. 高吞吐的優化方式1.1 更改序列化的方式1.2 修改Receiver接受到的資料的儲存級別1.3 廣播配置變數1.4 調大接收器的個數1.5 設定合理的批處理間隔

Spark Streaming整合Kafka調優

調優 Spark Streaming整合Kafka時，當資料量較小時預設配置一般都能滿足我們的需要，但是當資料量大的時候，就需要進行一定的調整和優化。

Spark Streaming讀取Kafka資料的兩種方式

Kafka在0.8和0.10之間引入了一種新的消費者API,因此,Spark Streaming與Kafka整合,有兩種包可以選擇:spark-streaming-kafka-0-8與spark-streaming-kafka-0-10。在使用時應注意以下幾點:

Spark-Streaming結合Redis

1、JedisConnectionPool.scala package sparkstreaming import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig}

基於Spark Streaming + Canal + Kafka對Mysql增量資料實時進行監測分析

1.Canal是什麼？2.如何編寫Canal客戶端？3.如何編寫一個數據庫操作的Spark程式程式碼？4.開發Spark專案時容易發生哪些衝突問題？Spark中的Spark Streaming可以用於實時流專案的開發，實時流專案的資料來源除了可以來

Spark——Spark Streaming 對比 Structured Streaming

簡介 Spark Streaming Spark Streaming是spark最初的流處理框架，使用了微批的形式來進行流處理。

SparkStreaming專案實戰從 0 到 1 學習之（1）使用 Kafka + Spark Streaming + Cassandra 構建資料實時處理引擎

Apache Kafka 是一個可擴充套件，高效能，低延遲的平臺，允許我們像訊息系統一樣讀取和寫入資料。我們可以很容易地在 Java 中使用 Kafka。

Spark Streaming初步使用以及工作原理詳解

一、流式計算 1.什麼是流？ Streaming：是一種資料傳送技術，它把客戶機收到的資料變成一個穩定連續的流，源源不斷地送出，使使用者聽到的聲音或看到的圖象十分平穩，而且使用者在整個檔案送完之前就可以開始在螢幕上

Spark Streaming 介紹及架構——基礎篇

1 概述官方網站Spark Streaming是Spark core API的擴充套件，支援實時資料流的處理，並且具有可擴充套件，高吞吐量，容錯的特點。資料可以從許多來源獲取，如Kafka，Flume，Kinesis或TCP sockets，並且可以使用複雜

基於Python的Spark Streaming+Kafka程式設計實踐

說明 Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

大資料實時流式資料處理是大資料應用中最為常見的場景，與我們的生活也息息相關，以手機流量實時統計來說，它總是能夠實時的統計出使用者的使用的流量，在第一時間通知使用者流量的使用情況，並且最為人性化的為使用

spark-streaming與kafka的整合

1. 概述在2.x中，spark有兩個用來與kafka整合的程式碼，版本代號為0.8和0.10，由於在0.8，kafka有兩套消費者api，根據高階api得到了Receiver-based Approach，根據低階api得到了Direct Approach，而在0.10由於kaf

spark實戰(一)——eclipse環境下Spark Streaming+Kafka+Hbase

技術標籤：SparkStreamingHbaseKafka大資料sparkHbasehbase 前言一、開發環境搭建二、使用步驟

spark streaming 之window視窗操作

技術標籤：windowspark大資料視窗函式，就是在DStream流上，以一個可配置的長度為視窗，以一個可配置的速率向前移動視窗，根據視窗函式的具體內容，分別對當前視窗中的這一波資料採取某個對應的操作運算元。

Spark Streaming應用

Spark Streaming應用

實驗目的

實驗要求

實驗內容

相關推薦