Kafka整合SparkStreaming2.2的一下午（奇葩錯誤一堆）

阿新 • • 發佈：2019-02-02

叢集環境：CDH 5.13.0，Spark 2.2.0，Scala 2.11.0

ps：沒營養的錯誤。。有些難受。還是要多看看原始碼啊。。

1.重頭：Kafka整合SparkStreaming

此處選擇kafka 0.10版本
點進去首先就能看到關鍵東西 - Maven座標，我們選擇：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
    <version 
>2.2.0</version>
</dependency>

這個整合依賴包包含很多元件，可以ctrl點選進去檢視
但除了這個，我還加了兩個包，便於本地測試：

<!--spark的核心包在spark-core在spark上已經有了-->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.2.0</version 
>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.11</artifactId>
    <version>2.2.0</version>
    <scope>provided</scope>
</dependency>

Scope設定為provided

，打包時就不用加進去了，因為叢集環境本地存在這些包。

注：打包外掛：

<build>
    <plugins>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
                <archive>
                    <manifest>
                        <mainClass>com.yj.test1</mainClass>
                    </manifest>
                </archive>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

通過Spark叢集執行程式碼：

import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{CanCommitOffsets, HasOffsetRanges, KafkaUtils, LocationStrategies}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe


def main(args: Array[String]): Unit = {

    //配置spqrkconf引數
    val sparkConf: SparkConf = new SparkConf().setAppName("SparkStreaming_kafka_direct").setMaster("local[2]")
    //構建sparkContext物件
    val sc: SparkContext = new SparkContext(sparkConf)
    sc.setLogLevel("WARN")
    //構建StreamingContext物件，每個批處理的時間間隔
    val ssc: StreamingContext = new StreamingContext(sc, Milliseconds(3000))
    //設定checkpoint
//    ssc.checkpoint("/user/spark/sparkstreaming/checkpoint")

    //設定broker的地址資訊，有多個可以寫多個，用逗號隔開
    val brokers = "cdh1:9092,cdh2:9092,cdh3:9092"

    //設定引數資訊
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> brokers,
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "fodr_each_stream",
      "auto.offset.reset" -> "latest",
      "enable.auto.commit" -> (false: java.lang.Boolean)
    )

    val topics = Array("test")

    // 建立一個DirectStream
    val stream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc, LocationStrategies.PreferConsistent, Subscribe[String, String](topics, kafkaParams)
    )


    stream.foreachRDD { rdd =>
      val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

      // some time later, after outputs have completed
      stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
    }

    val words: DStream[String] = stream.map(_.value()).flatMap(_.split(" "))
    val wordAndOne: DStream[(String, Int)] = words.map((_,1))
//    val total: DStream[(String, Int)] = wordAndOne.updateStateByKey(updateFunc)
    val windows: DStream[(String, Int)] = wordAndOne.reduceByKeyAndWindow((v1: Int, v2: Int) =>
      v1 + v2, Seconds(3), Seconds(6))
    windows.print()
//    total.print()

    ssc.start()
    ssc.awaitTermination()
  }

注：若想使用 updateStateByKey 則必須設定 checkpoint

叢集伺服器提交job：

spark2-submit   --master yarn \
--deploy-mode client \
--num-executors 16 \
--executor-cores 2 \
--executor-memory 8g \
--class com.yj.test1 \
--driver-memory 2g \
/root/scala_test_bak-1.0-SNAPSHOT-jar-with-dependencies.jar

基本OK了。。

2.各種錯誤

錯誤1：首當其衝的一個bug：NoSuchMethodError

Exception in thread "streaming-start" java.lang.NoSuchMethodError:
 org.apache.kafka.clients.consumer.KafkaConsumer.subscribe

這個錯誤真的太經典了，在整合Kafka和SparkStreaming時。。百度谷歌過一堆，很常見，但真正有營養的沒幾個

總結：發生這種錯誤，99%都是因為版本沒整合好！
比如：
Spark版本是不是2.2.0
Scala版本是不是2.11.0
kafka版本是不是高於0.10.0
我的問題就在於Spark預設的kafka版本為0.9，根本不是0.10！
這裡寫圖片描述
改為0.10就ok了

仔細看看你的叢集環境，版本吧

錯誤2：檢查checkpoint，檔案不存在
這裡寫圖片描述
以為是checkpoint那行程式碼有問題，hdfs路徑、許可權、需要提前建立什麼的，看了下原始碼：

def checkpoint(directory: String) {
    if (directory != null) {
      val path = new Path(directory)
      val fs = path.getFileSystem(sparkContext.hadoopConfiguration)
      fs.mkdirs(path)
      val fullPath = fs.getFileStatus(path).getPath().toString
      sc.setCheckpointDir(fullPath)
      checkpointDir = fullPath
    } else {
      checkpointDir = null
    }
  }

並沒有問題啊！（叢集預設路徑為hdfs）
排查發現：spark提交命令沒寫executor。。

錯誤3：
這裡寫圖片描述
task數瘋狂彈跳上漲，感覺是checkpoint有問題，寫執行緒被無限拒絕，task無限重啟失敗
解決：換了一個topic就好了。。

錯誤4：Xshell5終端消費訊息看不到，無論怎麼生產訊息，就是看不到被消費
解決：換了一個SSH渠道就看到訊息了（xshell顯示問題）。。。

還有一些小問題夾雜其中，都有些莫名其妙。。日後使用時出現問題再總結吧

Kafka整合SparkStreaming2.2的一下午（奇葩錯誤一堆）

叢集環境：CDH 5.13.0，Spark 2.2.0，Scala 2.11.0 ps：沒營養的錯誤。。有些難受。還是要多看看原始碼啊。。 1.重頭：Kafka整合SparkStreaming 此處選擇kafka 0.10版本點進去首先就能看到

每日一題（C語言基礎篇）2

題目描述：使用C語言將一個整型數字轉換成字串並倒序列印，例如：123轉換成字串321，-1234轉換成字串-4321。程式碼實現： #include <stdio.h> #include

sparkstreaming和kafka整合的兩種方式（最全）

-1,基於接收者的方法運算元：KafkaUtils.createStream 方法：PUSH，從topic中去推送資料，將資料推送過來 API：呼叫的Kafka高階API 效果：SparkStreaming中的Receivers，恰好Kafka有釋出/

springboot整合apache ftpserver詳細教程（看這一篇就夠了）

原創不易，如需轉載，請註明出處https://www.cnblogs.com/baixianlong/p/12192425.html，否則將追究法律責任！！！一、Apache ftpserver相關簡介　　Apache FtpServer是100％純Java FTP伺服器。它被設計為基於當前可用的開放

Codeforces Round #271 (Div. 2) D. Flowers （遞推預處理）

int art style eve itl which pop 有一種 esp We saw the little game Marmot made for Mole‘s lunch. Now it‘s Marmot‘s dinner time and, as we

python學習筆記第十一節（叠代和其他）

技術分享 img 余數商品列表步長取數 sorted函數學習四舍五入 yiled 面相過程編程造好內容，統一發給下面上面這個是傻瓜版內置函數 print(divmod(10,3)) 將10除以3，顯示商和余數 enumerate函數，顯示元素及它

HDU 6050 17多校2 Funny Function（數學+乘法逆元）

for each -- pac 目前 .cn ron rst input style Problem Description Function Fx,ysatisfies:For given integers N and M,calculate Fm,1 modulo 1e

Oracle10.2 補丁安裝（轉載略有修改）

1.修改p6880880_102000_Linux-x86-64.zip檔案許可權， chown oracle:oinstall p6880880_102000_Linux-x86-64.zip 2.用oracle使用者將p6880880_102000_Linux-x86

【原始碼追蹤】SparkStreaming 中用 Direct 方式每次從 Kafka 拉取多少條資料（offset取值範圍）

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffsets 是由

Codeforces Round #520 (Div. 2) B math（素數因子的應用）

題意：給出一個n ; 有兩個操作： 1，mul A , n=n*A ； 2，sqrt() , n=sqrt(n）開更出來必須是整數；求出經過這些操作後得出的最小 n

Java中2 5D遊戲（斜45度角）的設計與實現 1

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Android及JavaSE遊戲引擎LGame-0 2 9釋出（新增物理引擎支援）

網易雲覆盤：雲端計算前端這一年（AngularJS粉慎入）

此文已由作者趙雨森授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 2017年的前端已然沒有劇烈的變動，但發展勢頭仍然不減。語言、標準、框架和庫逐漸穩定和完善，各團隊再也不用花大把精力放在造輪子上，而更多的是去積累所需的元件庫、開發合適的工具以及整合自己的解決方案。我們雲端計算

spring Security4 和 oauth2整合註解+xml混合使用（替換使用者名稱密碼認證）

spring Security4 和 oauth2整合（替換使用者名稱密碼認證）之前已經寫了註解和xml配合搭建基本認證、頁面認證、授權碼認證、替換6位授權碼方法等，這次在前面的基礎上介紹如何替換使用者名稱密碼認證，下一篇介紹如何增加驗證碼等額外引數驗證方法。程式碼比較多，這次只

一、（java基本資料型別）

java中提供了8中基本資料型別（六種數字型別、一個字元型別、一個布林型別）{ byte： byte 資料型別是8位、有符號的，以二進位制補碼錶示的整數；最小值是 -128（-2^7）；最大值是 127（2^7-1）；預設值是 0； byte 型別用在大型陣列中節約空間，主要代

《華夏文明史》2 華夏考（東海陳光劍）

既立書主題為《華夏文明史》，開篇先反躬自省。欲書華夏之文明史，須先弄清華夏為何？華夏考 “華夏”一詞最早見於周朝《尚書·周書·武成》，“華夏蠻貊，罔不率俾”。《書經》曰：“冕服採裝曰華，大國曰夏”。《尚書正義》注：“冕服華章曰華，大國曰夏”。“華”，華麗、興旺也。《

微信公眾平臺開發2-接入指南（驗證伺服器地址有效性）

接入指南一、填寫伺服器配置在測試號管理中填寫介面配置資訊伺服器地址URL，URL是開發者用來接收微信訊息和事件的介面URL； Token可以任意填寫；這是測試時填寫的，真實專案的填寫還要填寫EncodingAESKey，可以由開發者手動填寫或隨機生成，將

3.2.第二節（配置表單頁面）

（1）將html拷入template，新建style.css將樣式匯入，同時在form表單匯入樣式（）（2）資料庫連線（3）連線驅動mysql（pip install mysql-python）,cd pip install +驅動所在檔案地址（

JS 返回上一步（退回上一步上一個網頁）

連結式： <a href="javascript:history.go(-1)">返回上一步</a> <a href="<%=Request.ServerVariables("HTTP_REFERER")%>">返

Codeforces Round #382 (Div. 2) D. Taxes（分拆素數和）

D. Taxes time limit per test2 seconds memory limit per test256 megabytes inputstandard input outputstandard output Mr. Funt

Kafka整合SparkStreaming2.2的一下午（奇葩錯誤一堆）

1.重頭：Kafka整合SparkStreaming

2.各種錯誤

相關推薦