Spark + Kafka 整合指南

阿新 • • 發佈：2019-01-08

最近在考慮Spark在消費Kafka 分割槽資料的過程中究竟反生了什麼? 因為比較疑惑現有系統架構會不會遭遇這方面的瓶頸,遂決定去搞一把,一探究竟.

關於Kafka做一下簡短的總結,Kafka可參考附件1:

多個TOPIC分佈在多個Broker中
每個TOPIC的資料以分割槽的方式分佈在多個Broker中
一個分割槽同時只能被一個Consumer消費
同一個TOPIC允許被不同的Group重複消費,Group內不允許重複消費

Spark接入Kafka資料的兩種方式Receiver-based && Direct Approach. 各有特點.

Receiver-based,基於接收器的kafka資料消費,

API示例如下

val kafkaStream = KafkaUtils.createStream(streamingContext, [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

概述
- KAFKA高階API實現,因而程式設計實現簡單.
- 接收器接負責收資料儲存到Sparnk 執行器,可能是記憶體或者磁碟
- 預設配置下潛在的資料丟失風險,可以啟用客戶端日誌特性,該操作將對消費的資料進行以日誌檔案形式進行儲存進而避免依賴於ZK的資料消費異常

點晴
- 基於接收器的Kafka資料消費Kafka分割槽與RDD分割槽之間沒有關聯,進而引數[per-topic number of Kafka partitions to consume] ,實際上只是增加了接收器接收資料的並行度而並沒有提高Saprk 處理資料的並行度.
- 可以使用多個Reciver來並行消費不同Topic 及不同Group下的資料
- 啟用日誌特性需要指定資料的儲存級別,KafkaUtils.createStream(..., StorageLevel.MEMORY_AND_DISK_SER)

Direct Approach,直接獲取資料

概述
- 一種端對端的資料消費策略,一個Kafka分割槽對應一個RDD分割槽.
- 定期的快速掃描Kafka中每個Partion 及Topic 的最新Offsets以確定當前批次的資料偏移範圍,該過程使用低階API來實現
優勢
- 簡化的並行度,基於DirectStream SparkStream將建立多個RDD分割槽去消費Kafka分割槽資料
- 效率上的提升,客戶端Offsets不再依賴於ZK儲存的Offsets而改由Spark checkPoint 進行跟蹤,每次取資料直接使用偏移獲取
- 一次消費保證, Offsets 不在依賴於ZK ,排除了ZK Offsets可能不同步的情況,消除了 Spark和Kafka之間的不一致性,意味著資料的消費由Spark掌控,只要資料存在於Kafka即可.
弊端
- offsets由Spark在checkpoint中維護不自動更新ZK中的Offsets,導致一些依賴於ZKOffsets監控的工具失效.
配置專案
- auto.offset.reset 消費者首次連線時offsets的生成策略,largest/smallest,分別代表當前最新訊息位置/最早訊息位置.
- spark.streaming.kafka.* 其它可配置的引數
- spark.streaming.kafka.maxRetries 最大重試次數
- spark.streaming.kafka.maxRatePerPartition 每秒中消費的最大條數 ,該引數對於從資料積壓中進行恢復有顯著調節作用.

附件1:kafka 知識圖解

Spark + Kafka 整合指南

最近在考慮Spark在消費Kafka 分割槽資料的過程中究竟反生了什麼? 因為比較疑惑現有系統架構會不會遭遇這方面的瓶頸,遂決定去搞一把,一探究竟. 關於Kafka做一下簡短的總結,Kafka可參考

【轉】Spark Streaming和Kafka整合開發指南

thread ada 關系方法拷貝理解 1.2 reduce arr 基於Receivers的方法這個方法使用了Receivers來接收數據。Receivers的實現使用到Kafka高層次的消費者API。對於所有的Receivers，接收到的數據將會保存在Spark

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

obj required word 錯誤 prope apache rop sta move Maven組件如下： <dependency> <groupId>org.apache.spark</groupId> <

spark streaming整合kafka-直連的方式

import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import kafka.utils.{ZKGroupTopicDi

Spark Stream整合flum和kafka，資料儲存在HBASE上，分析後存入資料庫

開發環境：Hadoop+HBASE+Phoenix+flum+kafka+spark+MySQL 預設配置好了Hadoop的開發環境，並且已經安裝好HBASE等元件。下面通過一個簡單的案例進行整合：這是整個工作的流程圖：第一步：獲取資料來源　　由於外部埋點獲取資源較為繁瑣

Spark學習筆記（16）——Spark Streaming 整合Kafka

1 啟動 zk(zookeeper-3.4.8) 三個節點同時操作 zkServer.sh start 2 啟動 Kafka 三個節點同時操作 kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/conf

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

java實現kafka整合spark streaming完成wordCount,updateStateByKey完成實時狀態更新

引入依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId&g

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(基於Receiver的方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(直接讀取方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark學習（拾叄）- Spark Streaming整合Flume&Kafka

文章目錄處理流程畫圖剖析日誌產生器開發並結合log4j完成日誌的輸出使用Flume採集Log4j產生的日誌使用KafkaSInk將Flume收集到的資料輸出到Kafka Spark Streaming消費Kafka的

Spark學習（拾貳）- Spark Streaming整合Kafka

文章目錄 Spark Streaming整合Kafka的版本選擇詳解以下是基於spark2.2的測試： Receiver方式整合之概述 Receiver方式整合之Kafka測試 Receiver方式整合之Sp

spark筆記之Spark Streaming整合kafka實戰

kafka作為一個實時的分散式訊息佇列，實時的生產和消費訊息，這裡我們可以利用SparkStreaming實時地讀取kafka中的資料，然後進行相關計算。在Spark1.3版本後，KafkaUtils裡面提供了兩個建立dstream的方法，一種為KafkaUtils.cr

Spark Streaming整合Kafka實現網站點選流實時統計

安裝並配置zk 安裝並配置Kafka 啟動zk 啟動Kafka 建立topic bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \ --

【十五】Spark Streaming整合Kafka使用Direct方式（使用Scala語言）

官網介紹 Kafka提供了新的consumer api 在0.8版本和0.10版本之間。0.8的整合是相容0.9和0.10的。但是0.10的整合不相容以前的版本。這裡使用的整合是spark-streaming-kafka-0-8。官方文件配置SparkStrea

Spark Streaming整合Kafka（一）

基於Receiver 方式整合一、Kafka版本選擇 Spark Streaming支援Kafka0.8.2.1及以上的版本。 Kafka專案介紹了兩個新的Comsumer（消費者）API，在0.8版本和0.10版本之間，根據自身需求選擇版本號，另外要注意，0.8版本是相

java實現spark streaming與kafka整合進行流式計算

背景：網上關於spark streaming的文章還是比較多的，可是大多數用scala實現，因我們的電商實時推薦專案以java為主，就踩了些坑，寫了java版的實現，程式碼比較意識流，輕噴，歡迎討論。流程：spark streaming從kafka讀使用者實時點選資料，過濾資

Spark Streaming--3 Spark 與 Kafka整合

引入jar包依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</art

十二 Spark+Kafka+Mysql 整合

如果程式缺少包，需要匯入到系統中去，採用如下方法 for i in `ls /data/spark-workspace/lib/*.jar` do LIBJAR=$i,$LIBJAR done export LIBJARS=${LIBJAR%?} /*

Spark Streaming 和kafka 整合指導（kafka 0.8.2.1 或以上版本）

本節介紹一下如何配置Spark Streaming 來接收kafka的資料。有兩個方法： 1、老的方法 -使用Receivers 和kafka的高階API 2、新的方法（ Spark 1.3 開始引入）-不適用Receivers。這兩個方式擁有不同的程式設計模型，效能特徵

Spark + Kafka 整合 指南

相關推薦

Spark + Kafka 整合指南