Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明

Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下：

	spark-streaming-kafka-0-8	spark-streaming-kafka-0-10
Kafka 版本	0.8.2.1 or higher	0.10.0 or higher
AP 狀態	Deprecated 從 Spark 2.3.0 版本開始，Kafka 0.8 支援已被棄用	Stable(穩定版)
語言支援	Scala, Java, Python	Scala, Java
Receiver DStream	Yes	No
Direct DStream	Yes	Yes
SSL / TLS Support	No	Yes
Offset Commit API(偏移量提交)	No	Yes
Dynamic Topic Subscription (動態主題訂閱)	No	Yes

本文使用的 Kafka 版本為 kafka_2.12-2.2.0，故採用第二種方式進行整合。

二、專案依賴

專案採用 Maven 進行構建，主要依賴如下：

<properties>
    <scala.version>2.12</scala.version>
</properties>

<dependencies>
    <!-- Spark Streaming-->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_${scala.version}</artifactId>
        <version>${spark.version}</version>
    </dependency>
    <!-- Spark Streaming 整合 Kafka 依賴-->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming-kafka-0-10_${scala.version}</artifactId>
        <version>2.4.3</version>
    </dependency>
</dependencies>

完整原始碼見本倉庫：spark-streaming-kafka

三、整合Kafka

通過呼叫 KafkaUtils 物件的 createDirectStream 方法來建立輸入流，完整程式碼如下：

import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.streaming.kafka010._
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * spark streaming 整合 kafka
  */
object KafkaDirectStream {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("KafkaDirectStream").setMaster("local[2]")
    val streamingContext = new StreamingContext(sparkConf, Seconds(5))

    val kafkaParams = Map[String, Object](
      /*
       * 指定 broker 的地址清單，清單裡不需要包含所有的 broker 地址，生產者會從給定的 broker 裡查詢其他 broker 的資訊。
       * 不過建議至少提供兩個 broker 的資訊作為容錯。
       */
      "bootstrap.servers" -> "hadoop001:9092",
      /*鍵的序列化器*/
      "key.deserializer" -> classOf[StringDeserializer],
      /*值的序列化器*/
      "value.deserializer" -> classOf[StringDeserializer],
      /*消費者所在分組的 ID*/
      "group.id" -> "spark-streaming-group",
      /*
       * 該屬性指定了消費者在讀取一個沒有偏移量的分割槽或者偏移量無效的情況下該作何處理:
       * latest: 在偏移量無效的情況下，消費者將從最新的記錄開始讀取資料（在消費者啟動之後生成的記錄）
       * earliest: 在偏移量無效的情況下，消費者將從起始位置讀取分割槽的記錄
       */
      "auto.offset.reset" -> "latest",
      /*是否自動提交*/
      "enable.auto.commit" -> (true: java.lang.Boolean)
    )
    
    /*可以同時訂閱多個主題*/
    val topics = Array("spark-streaming-topic")
    val stream = KafkaUtils.createDirectStream[String, String](
      streamingContext,
      /*位置策略*/
      PreferConsistent,
      /*訂閱主題*/
      Subscribe[String, String](topics, kafkaParams)
    )

    /*列印輸入流*/
    stream.map(record => (record.key, record.value)).print()

    streamingContext.start()
    streamingContext.awaitTermination()
  }
}

3.1 ConsumerRecord

這裡獲得的輸入流中每一個 Record 實際上是 ConsumerRecord<K, V> 的例項，其包含了 Record 的所有可用資訊，原始碼如下：

public class ConsumerRecord<K, V> {
    
    public static final long NO_TIMESTAMP = RecordBatch.NO_TIMESTAMP;
    public static final int NULL_SIZE = -1;
    public static final int NULL_CHECKSUM = -1;
    
    /*主題名稱*/
    private final String topic;
    /*分割槽編號*/
    private final int partition;
    /*偏移量*/
    private final long offset;
    /*時間戳*/
    private final long timestamp;
    /*時間戳代表的含義*/
    private final TimestampType timestampType;
    /*鍵序列化器*/
    private final int serializedKeySize;
    /*值序列化器*/
    private final int serializedValueSize;
    /*值序列化器*/
    private final Headers headers;
    /*鍵*/
    private final K key;
    /*值*/
    private final V value;
    .....   
}

3.2 生產者屬性

在示例程式碼中 kafkaParams 封裝了 Kafka 消費者的屬性，這些屬性和 Spark Streaming 無關，是 Kafka 原生 API 中就有定義的。其中伺服器地址、鍵序列化器和值序列化器是必選的，其他配置是可選的。其餘可選的配置項如下：

1. fetch.min.byte

消費者從伺服器獲取記錄的最小位元組數。如果可用的資料量小於設定值，broker 會等待有足夠的可用資料時才會把它返回給消費者。

2. fetch.max.wait.ms

broker 返回給消費者資料的等待時間。

3. max.partition.fetch.bytes

分割槽返回給消費者的最大位元組數。

4. session.timeout.ms

消費者在被認為死亡之前可以與伺服器斷開連線的時間。

5. auto.offset.reset

該屬性指定了消費者在讀取一個沒有偏移量的分割槽或者偏移量無效的情況下該作何處理：

latest(預設值) ：在偏移量無效的情況下，消費者將從其啟動之後生成的最新的記錄開始讀取資料；
earliest ：在偏移量無效的情況下，消費者將從起始位置讀取分割槽的記錄。

6. enable.auto.commit

是否自動提交偏移量，預設值是 true,為了避免出現重複資料和資料丟失，可以把它設定為 false。

7. client.id

客戶端 id，伺服器用來識別訊息的來源。

8. max.poll.records

單次呼叫 poll() 方法能夠返回的記錄數量。

9. receive.buffer.bytes 和 send.buffer.byte

這兩個引數分別指定 TCP socket 接收和傳送資料包緩衝區的大小，-1 代表使用作業系統的預設值。

3.3 位置策略

Spark Streaming 中提供瞭如下三種位置策略，用於指定 Kafka 主題分割槽與 Spark 執行程式 Executors 之間的分配關係：

PreferConsistent : 它將在所有的 Executors 上均勻分配分割槽；
PreferBrokers : 當 Spark 的 Executor 與 Kafka Broker 在同一機器上時可以選擇該選項，它優先將該 Broker 上的首領分割槽分配給該機器上的 Executor；
PreferFixed : 可以指定主題分割槽與特定主機的對映關係，顯示地將分割槽分配到特定的主機，其構造器如下：

@Experimental
def PreferFixed(hostMap: collection.Map[TopicPartition, String]): LocationStrategy =
  new PreferFixed(new ju.HashMap[TopicPartition, String](hostMap.asJava))

@Experimental
def PreferFixed(hostMap: ju.Map[TopicPartition, String]): LocationStrategy =
  new PreferFixed(hostMap)

3.4 訂閱方式

Spark Streaming 提供了兩種主題訂閱方式，分別為 Subscribe 和 SubscribePattern。後者可以使用正則匹配訂閱主題的名稱。其構造器分別如下：

/**
  * @param 需要訂閱的主題的集合
  * @param Kafka 消費者引數
  * @param offsets(可選): 在初始啟動時開始的偏移量。如果沒有，則將使用儲存的偏移量或 auto.offset.reset 屬性的值
  */
def Subscribe[K, V](
    topics: ju.Collection[jl.String],
    kafkaParams: ju.Map[String, Object],
    offsets: ju.Map[TopicPartition, jl.Long]): ConsumerStrategy[K, V] = { ... }

/**
  * @param 需要訂閱的正則
  * @param Kafka 消費者引數
  * @param offsets(可選): 在初始啟動時開始的偏移量。如果沒有，則將使用儲存的偏移量或 auto.offset.reset 屬性的值
  */
def SubscribePattern[K, V](
    pattern: ju.regex.Pattern,
    kafkaParams: collection.Map[String, Object],
    offsets: collection.Map[TopicPartition, Long]): ConsumerStrategy[K, V] = { ... }

在示例程式碼中，我們實際上並沒有指定第三個引數 offsets，所以程式預設採用的是配置的 auto.offset.reset 屬性的值 latest，即在偏移量無效的情況下，消費者將從其啟動之後生成的最新的記錄開始讀取資料。

3.5 提交偏移量

在示例程式碼中，我們將 enable.auto.commit 設定為 true，代表自動提交。在某些情況下，你可能需要更高的可靠性，如在業務完全處理完成後再提交偏移量，這時候可以使用手動提交。想要進行手動提交，需要呼叫 Kafka 原生的 API :

commitSync: 用於非同步提交；
commitAsync：用於同步提交。

具體提交方式可以參見：Kafka 消費者詳解

四、啟動測試

4.1 建立主題

1. 啟動Kakfa

Kafka 的執行依賴於 zookeeper，需要預先啟動，可以啟動 Kafka 內建的 zookeeper，也可以啟動自己安裝的：

# zookeeper啟動命令
bin/zkServer.sh start

# 內建zookeeper啟動命令
bin/zookeeper-server-start.sh config/zookeeper.properties

啟動單節點 kafka 用於測試：

# bin/kafka-server-start.sh config/server.properties

2. 建立topic

# 建立用於測試主題
bin/kafka-topics.sh --create \
                    --bootstrap-server hadoop001:9092 \
                    --replication-factor 1 \
                    --partitions 1  \
                    --topic spark-streaming-topic

# 檢視所有主題
 bin/kafka-topics.sh --list --bootstrap-server hadoop001:9092

3. 建立生產者

這裡建立一個 Kafka 生產者，用於傳送測試資料：

bin/kafka-console-producer.sh --broker-list hadoop001:9092 --topic spark-streaming-topic

4.2 本地模式測試

這裡我直接使用本地模式啟動 Spark Streaming 程式。啟動後使用生產者傳送資料，從控制檯檢視結果。

從控制檯輸出中可以看到資料流已經被成功接收，由於採用 kafka-console-producer.sh 傳送的資料預設是沒有 key 的，所以 key 值為 null。同時從輸出中也可以看到在程式中指定的 groupId 和程式自動分配的 clientId。

參考資料

https://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明 Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下： spark-streaming-kafka-0-8 spark-streaming-kafka-0

Spark 系列（十四）—— Spark Streaming 基本操作

一、案例引入這裡先引入一個基本的案例來演示流的建立：獲取指定埠上的資料並進行詞頻統計。專案依賴和程式碼實現如下： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spar

Spark 系列（十五）—— Spark Streaming 整合 Flume

一、簡介 Apache Flume 是一個分散式，高可用的資料收集系統，可以從不同的資料來源收集資料，經過聚合後傳送到分散式計算框架或者儲存系統中。Spark Straming 提供了以下兩種方式用於 Flume 的整合。二、推送式方法在推送式方法 (Flume-style Push-based Appr

Spark 系列（十一）—— Spark SQL 聚合函式 Aggregations

一、簡單聚合 1.1 資料準備 // 需要匯入 spark sql 內建的函式包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").mast

Java 設計模式系列（十六）觀察者模式(Observer)

for out 其中如果 observer 業務 ets 同時 hang Java 設計模式系列（十六）觀察者模式(Observer) 觀察者模式是對象的行為模式，又叫發布-訂閱(Publish/Subscribe)模式、模型-視圖(Model/View)模式、源-監聽

劍指offer系列（十六）翻轉單詞順序列，撲克牌順子，孩子們的遊戲（圓圈中最後剩下的數）

翻轉單詞順序列題目描述牛客最近來了一個新員工Fish，每天早晨總是會拿著一本英文雜誌，寫些句子在本子上。同事Cat對Fish寫的內容頗感興趣，有一天他向Fish借來翻看，但卻讀不懂它的意思。例如，“student. a am I”。後來才意識到，這傢伙原來把句子單詞的順序翻轉了，正確的句

linux系列（十六）：which命令

1、命令格式：　　which 可執行檔名稱 2、命令功能：　　which指令會在PATH變數指定的路徑中，搜尋某個系統命令的位置，並且返回第一個搜尋結果。 3、命令引數： -n 　指定檔名長度，指定的長度必須大於或等於所有檔案中最長的檔名。 -p 　與-n引數相同，但此處的包括了檔案的路

Flask1.0.2系列（十六）擴充套件

英文原文地址：http://flask.pocoo.org/docs/1.0/extensions/ 若有翻譯錯誤或者不盡人意之處，請指出，謝謝~ 擴充套件是為Flask應用程式新增功能的額外的包。舉個栗子，一個擴充

CM+CDH構建企業大資料平臺系列（十六）

完整視訊+圖文資料獲取及技術答疑請加：大講臺大資料研習社⑦ ：695520445 安裝Cloudera Manager Server四、安裝Cloudera

Springboot 系列（十六）你真的瞭解 Swagger 文件嗎？

前言目前來說，在 Java 領域使用 Springboot 構建微服務是比較流行的，在構建微服務時，我們大多數會選擇暴漏一個 REST API 以供呼叫。又或者公司採用前後端分離的開發模式，讓前端和後端的工作由完全不同的工程師進行開發完成。不管是微服務還是這種前後端分離開發，維持一份完整的及時更新的 RES

Golang 入門系列（十六）鎖的使用場景主要涉及到哪些？讀寫鎖為什麼會比普通鎖快

前面已經講過很多Golang系列知識，感興趣的可以看看以前的文章，https://www.cnblogs.com/zhangweizhong/category/1275863.html，接下來要說的是golang的鎖的使用場景主要涉及到哪些？讀寫鎖為什麼會比普通鎖快。一、什麼場景下需要用到鎖

Selenium系列（十六） - Web UI 自動化基礎實戰（3）

如果你還想從頭學起Selenium，可以看看這個系列的文章哦！ https://www.cnblogs.com/poloyy/category/1680176.html 其次，如果你不懂前端基礎知識，需要自己去補充哦，博主暫時沒有總結（雖然我也會，所以我學selenium就不用複習前端了哈哈哈.

Quartz.Net系列（十六）：Misfire策略在SimpleScheduler和CronScheduler中的使用

1.場景 ①因為工作執行緒都在忙碌，所以導致某些Trigger得不到觸發也就是預設10個工作執行緒而我有15個Trigger同時觸發這就導致有5個不能被觸發,而不幸的是Trigger所關聯的Job執行時間特別長如果某些Trigger超過指定的閾值那麼就不會觸發 ②Scheduler掛掉了。。。某些時刻又

一起來學SpringBoot（十六）優雅的整合Shiro

Apache Shiro是一個功能強大且易於使用的Java安全框架，可執行身份驗證，授權，加密和會話管理。藉助Shiro易於理解的API，您可以快速輕鬆地保護任何應用程式 - 從最小的移動應用程式到最大的Web和企業應用程式。網上找到大部分文章都是以前Sprin

SpringBoot（十一）：SpringBoot整合Kafka

一、準備工作提前說明：如果你執行出問題，請檢查Kafka的版本與SpringBoot的版本是否與我文中的一致，本文中的環境已經經過測試。 Kafka服務版本為 kafka_2.11-1.1.0 (Scala)，也就是1.1.0 SpringBoot版本：1.5.10.R

Spark 系列（十）—— Spark SQL 外部資料來源

一、簡介 1.1 多資料來源支援 Spark 支援以下六個核心資料來源，同時 Spark 社群還提供了多達上百種資料來源的讀取方式，能夠滿足絕大部分使用場景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注：以下所有測試檔案均可

機器學習與深度學習系列連載：第二部分深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM）

深度學習（十六）迴圈神經網路 4（BiDirectional RNN， Highway network， Grid-LSTM） RNN處理時間序列資料的時候，不僅可以正序，也可以正序+逆序（雙向）。下面顯示的RNN模型，不僅僅是simple RNN，可以是LSTM，或者GRU 1 B

[搬運工系列]-JMeter（十六）Jmeter之Bean shell使用(二) Jmeter之Bean shell使用(一) Jmeter之Bean shell使用(一)

　上一篇Jmeter之Bean shell使用(一)簡單介紹了下Jmeter中的Bean shell，本文是對上文的一個補充，主要總結下常用的幾種場景和方法，相信這些基本可以涵蓋大部分的需求。本節內容如下：一、操作變數二、操作屬性三、自定義函式四、引用外部java檔案五、引用外

[搬運工系列]-JMeter（十六）Jmeter之Bean shell使用(一)

一、什麼是Bean Shell BeanShell是一種完全符合Java語法規範的指令碼語言,並且又擁有自己的一些語法和方法; BeanShell是一種鬆散型別的指令碼語言(這點和JS類似); BeanShell是用Java寫成的,一個小型的、免費的、可以下載的、嵌入式的Java原始碼直譯器,

Spark學習（拾叄）- Spark Streaming整合Flume&Kafka

文章目錄處理流程畫圖剖析日誌產生器開發並結合log4j完成日誌的輸出使用Flume採集Log4j產生的日誌使用KafkaSInk將Flume收集到的資料輸出到Kafka Spark Streaming消費Kafka的