1. 程式人生 > >在寫spark-streaming + kafka 實現專案問題

在寫spark-streaming + kafka 實現專案問題

在ide的本地開發都是好的,但是使用spark-submit提交到叢集時出現了問題。

後面發現在開發環境中使用了maven來構建專案,所以配置的spark版本是2.1.0,scala版本是2.11.11,hadoop是2.7.2,kafka是2.1版本的,本地除錯時能正常消費kafka生成的資料進行計算。

    但是使用spark-submit提交到搭建的叢集環境時出現了問題,先是出現了classNOtFoundException,類找不到,後來發現是沒有在/etc/profile中配置classpath導致執行不了,後面把所有的需要用到的jar包的路徑在裡面配置了,又出現了其他錯誤。    

        後面發現版本不一致的問題,在叢集上面的版本是spark1.6.1的和開發環境中的環境不一致,而後又更改了叢集上面的spark版本為2.1.0。還有出現的問題是消費kafka資料的時候出現獲取kafka對應路徑建立的path出錯。經過各種實驗才發現在spark-streaming消費的過程中當不往kafka裡面放資料的時候會出現建立某個路徑失敗,因為缺少了資料,可能是需要新增處理,沒有資料的時候不要出現報錯的情況,讓他過一段時間來進行巡檢視看是否有資料。