spark streaming 程式在linux執行

阿新 • • 發佈：2018-11-10

● 將程式碼打成jar包上傳至linux

package com.ws.saprk
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}
object StreamingTextFile {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("StreamingTextFile")

    val ssc = new StreamingContext(conf,Seconds(5))
    
	//這邊有個坑,不能在本地上執行(windows),而且linux下也只能往該目錄下通過流的方式追加資料才會被讀取
	//比如echo xxxxx >> /root/test/game.log,會被streaming識別執行
	//而且,原來在此目錄存在的檔案也不會被識別,只有新增的並且通過流的資料才會識別!!!!!
    val test: DStream[String] = ssc.textFileStream("/root/test/")

    val splitArr = test.flatMap(_.split(" "))

    val result = splitArr.map(x=>(x,1)).reduceByKey(_+_)
    
    result.print()
    
    ssc.start()
    
    ssc.awaitTermination()
  }
}

● spark-submit 執行jar包

#這邊使用ip簡寫(qjw-01)也有問題
[[email protected] spark-2.1.3]# ./bin/spark-submit --master spark://192.168.0.21:7077 --class com.ws.saprk.StreamingTextFile /root/ws.jar

● 寫入資料

[[email protected] ~]# echo 1 2 3 4 5 6 7 8 9 1 2 43 5 6 5 >> /root/test/i.log

● 結果

-------------------------------------------
Time: 1539098465000 ms
-------------------------------------------

-------------------------------------------
Time: 1539098470000 ms
-------------------------------------------
(4,1)
(8,1)
(6,2)
(2,2)
(7,1)
(5,3)
(9,1)
(3,1)
(1,2)
(43,1)

-------------------------------------------

spark streaming 程式在linux執行

● 將程式碼打成jar包上傳至linux package com.ws.saprk import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Seconds, Streamin

讓 Spark Streaming 程式在 YARN 叢集上長時間執行（二）—— 日誌、監控、Metrics

前段時間看到了外國朋友寫的一篇文章，覺得還不錯，於是就把他翻譯一下，供大家參考和學習。如果沒看過第一篇文章，建議先去看一下上一篇文章哈，這裡是接著上一篇文章來寫的哈~ 日誌訪問 Spark 應用程式日誌的最簡單方法是配置 Log4j 控

如何在idea裡面直接執行spark streaming程式

在windows環境下，雖然控制檯報了一大堆錯誤，但是spark streaming還是按照它的邏輯跑著，也能得到正確的結果，並且能夠打斷點除錯！！！由於報了一大坨的錯誤在控制檯，導致我想看到的資訊老是被刷屏出去，於是把程式碼放進linux的idea中去跑，發現strea

解決spark streaming長時間執行日誌不斷增長問題

元件：基於CDH5.13、spark2.2.X 背景：由於spark streaming是7*24小時不間斷執行的，日誌必然會越來越多到最後大的驚人，在此小二記錄一下解決日誌越來越大的過程，以便需要之人。一、spark streaming log 日誌

spark streaming程式因叢集kafka版本不一致造成ZkUtils類無法更新offset解決方案

問題：因為CDH叢集環境問題，我spark streaming程式的依賴就依照其版本來進行，但這就遇到一個問題，叢集spark2支援的kafka版本是0.9.0，而我們程式操作zookeeper的ZkUtils類就不相容了。解決方案：重新KafkaCluster類，

Flume+Kakfa+Spark Streaming整合（執行WordCount小例子）

環境版本：Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0 Flume/Kafka的安裝配置請看我之前的部落格: http://blog.c

從零開始寫一個Spark Structured Streaming程式來統計單詞個數

本文將從零開始寫一個Spark Structured Streaming程式來統計單詞的個數。單詞的來源是socket，讀者也可以換成kafka，計算的結果輸出到控制檯，讀者也可以改成輸出到kafka的某個topic。準備環境： JDK和Scala安裝，並配置好環境變數JAVA_H

linux 執行程式時，提示not found問題分析

sh: ./test: not found 通常可以通過readelf檢視該程序檔案所以依賴的執行環境，檢查相關路徑是否存在對應的檔案，注意 1. interpreter是絕對路徑，設定LD_LIBRARY_PATH指向對應目錄對於部分系統則無效 2. Shared library可以是相

spark-streaming例子程式

開發spark-streaming從伺服器埠實時接收資料進行worldcount；環境搭建 idea+maven 其pom檔案如下： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http:

用Linux守護程序檢測某個程式是否執行

實現功能：做的一個嵌入式板子開機會自啟動一個程式，但發現它工作數天後會退出。檢查記憶體使用並沒有洩漏，於是編寫了一個守護程序來不斷檢查程式是否執行，沒執行則執行它，這是一個折衷的辦法。說明：需要執行的程式是AlarmInterface,位於目錄/rf/下面。我做了

linux中啟動 java -jar 後臺執行程式 linux中啟動 java -jar 後臺執行程式

ps -ef | grep java 查詢java 端口占用 linux中啟動 java -jar 後臺執行程式直接用java -jar xxx.jar，當退出或關閉shell時，程式就會停止掉。以下方法可讓jar執行後一直在後臺執行。

linux中讓程式後臺執行！！！

在嘗試讓自己寫的測試程式開機自動啟動過程中，出現多次失敗，最後在/etc/rc.local中加入了自己測試程式路徑/bin/testproc。接著開機啟動看看程式是否自啟動，結果發現出現串列埠列印停止在某個位置。心想麻煩了把系統配置檔案弄壞了，造成系統加載出現問題

linux下python程式後臺執行，並將列印資訊儲存檔案

在跑比較時間比較長的程式，或者是列印資訊比較多的程式時，一般都會後臺執行程式，然後把列印資訊儲存在檔案中，等程式執行結束後再檢查輸出日誌。完成該功能可以用如下命令： nuhup python -u test.py > test.log 2>&1 &

Linux後臺啟動程式以及開啟XShell連線執行java -jar然後關閉連線程式不再執行問題

問題描述我打好的jar包，放在伺服器上之後，在windows裡面用xshell開啟一個連線，然後執行java -jar 。。。。執行這個jar檔案，當我關閉這個連結的時候為什麼程式停止了呢？開啟XShell連線並執行 java -jar XX.jar 後當前的連線被

Linux screen讓你的筆記本關機，伺服器程式後臺執行

1.Background 現在的深度學習訓練一般都是使用伺服器，而我們通過SSH連線伺服器跑程式或者其他操作會遇到一些問題，比如訓練程式碼跑太久導致沒辦法關機，因為關掉命令列視窗程式就會停止，或者有時我們需要同時開多個終端，因為一個終端在程式碼執行時沒辦法進行其他操作。

第一個Spark Streaming案例程式

前面的文章大概的介紹了Spark Streaing流式處理框架，說的通俗點，實際上就是在Spark Core的基礎上進行了封裝，然後將小批次的資料進行處理，處理完了程序並不會停止，而是會一直存在，這樣只要有資料進來，就會進行處理，從而實現了流式處理下面就來一個例項進行感受

新的視覺化幫助更好地瞭解Spark Streaming應用程式

Spark UI中的Streaming標籤頁來顯示以下資訊：時間軸檢視和事件率統計，排程延遲統計以及以往的批處理時間統計每個批次中所有JOB的詳細資訊此外，為了理解在Streaming操作上下文中job的執行情況，有向無環執行圖的視覺化（ execution

IDEA執行spark相關程式報陣列越界異常java.lang.ArrayIndexOutOfBoundsException: 10582

筆者執行環境： Win10 + IDEA + spark2.4 + JDK8 程式執行到 sc.textFile("E:/tmp/test.txt"); 報了陣列越界異常，經檢查是paranamer造成的(網上有同行說JDK8得使用paraname

spark streaming 應用程式監控

原文： http://www.w3cschool.cn/spark/9cdqmozt.html 在WEB UI中的Processing Time和Scheduling Delay兩個度量指標是非常重要的。第一個指標表示批資料處理的時間，第二個指標表示前面的批處理完

Linux screen命令——會話分離（使程式後臺執行，不受網路連線限制）

Screen是一款由GNU計劃開發的用於命令列終端切換的自由軟體。使用者可以通過該軟體同時連線多個本地或遠端的命令列會話，並在其間自由切換。GNU Screen可以看作是視窗管理器的命令列介面版本。它提供了統一的管理多個會話的介面和相應的功能。會話恢復只要Screen本身沒有

spark streaming 程式在linux執行

相關推薦