SparkStreaming 搭建《二》執行SparkStreaming在叢集上提交方式

阿新 • • 發佈：2018-12-31

本教程主要總結SparkStreaming並打包在叢集上提交的方式。

需要先開啟

$ nc -lk 9999

程式碼：

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkStreamingDemo {
  def main(args: Array[String]) {
    if (args.length < 2) {
      System.err.println("Usage: NetworkWordCount <hostname> <port>")
      System.exit(1)
    }

   // SparkStreamingDemo.setStreamingLogLevels()

    // Create the context with a 1 second batch size
    val sparkConf = new SparkConf().setAppName("NetworkWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the
    // words in input stream of \n delimited text (eg. generated by 'nc')
    // Note that no duplication in storage level only for running locally.
    // Replication necessary in distributed scenario for fault tolerance.
    val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }

後面的localhost 9999是輸入引數
// spark-submit  --queue media --class test.SparkStreamingDemo  --master yarn-cluster --executor-memory 2g  --executor-cores 2 --conf spark.yarn.submit.waitAppCompletion=false  ~/home/SparkStreamingDemo-1.0-SNAPSHOT.jar  localhost 9999

SparkStreaming 搭建《二》執行SparkStreaming在叢集上提交方式

本教程主要總結SparkStreaming並打包在叢集上提交的方式。需要先開啟 $ nc -lk 9999 程式碼： import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel i

讓 Spark Streaming 程式在 YARN 叢集上長時間執行（二）—— 日誌、監控、Metrics

前段時間看到了外國朋友寫的一篇文章，覺得還不錯，於是就把他翻譯一下，供大家參考和學習。如果沒看過第一篇文章，建議先去看一下上一篇文章哈，這裡是接著上一篇文章來寫的哈~ 日誌訪問 Spark 應用程式日誌的最簡單方法是配置 Log4j 控

三臺阿里雲伺服器搭建完全分散式hadoop叢集並實現sparkstreaming詳細步驟

本文基於三臺阿里雲ECS例項搭建完全分散式hadoop叢集，並整合flume + kafka + sparkstreaming實現實時流處理。詳細步驟會在本文後續一一寫出，包括在搭建叢集過程中遇到的坑以及應對辦法。前言三臺ECS主機的規劃如下：外網ip

編寫Spark程式並提交到叢集上執行

編寫Spark應用程式使用SCALA IDE，新建一個SCALA PROJECT，在專案下新建一個lib的資料夾，把spark的JAR包放進去，並且build path裡新增一下JAR包引用，然後新增一個SCALA類SparkRowCount，這個Spark

scala編寫的Spark程式遠端提交到伺服器叢集上執行

一.需要的軟體： eclipse 相應版本的scalaIDE 與叢集一樣的spark安裝包，主要是要用到spark中的jar包與叢集一樣的hadoop安裝包與hadoop版本對應的winutil.exe，hadoop.dll（只要版本差距不大不一樣也沒關

spark叢集搭建與叢集上執行wordcount程式

Spark 配置 1、master 機器 Spark 配置進入 Spark 安裝目錄下的 conf 目錄，拷貝 spark-env.sh.template 到 spark-env.sh。 cp spark-env.sh.template spark-e

Redis實戰（二）CentOS 7上搭建redis-3.0.2

str 進程 ps 禁用安裝redis 結果 redis 啟動服務 pro bin 1.安裝redis wget http://download.redis.io/releases/redis-3.0.2.tar.gz tar zxvf redis-3.0.2.tar

自建git服務器連接Pycharm系列二：在centos7上搭建git服務器

搭建 str dsc 虛擬 conf char har pat 連接在自己的Linux虛擬機上，搭建git服務器，用來保存代碼。 centos7本身自帶git，需要先卸載，安裝成較新的版本。 1、卸載系統自帶版本系統已經自帶 [root@dscrapy01 ~

Zabbix二：在nginx上搭建

trapper cto root 0 rows group mir open exp .html 介紹就不再次介紹了。目前很多公司都在nginx上搭建服務了，所以我又搭建了一個LNMP+Zabbix，具體步驟如下 -----------LNMP+Zabbix--------

CentOS7 上搭建多節點 Elasticsearch叢集

本文內容腦圖如下：文章共 747字，閱讀大約需要 2分鐘！概述最近學 Elasticsearch，既然學之，怎麼能沒有實際的叢集來把玩呢，因此自己必須動手搭一個！注：本文首發於 My Personal Blog：CodeSheep·程式羊，歡迎光臨小站

把mapreduce執行在遠端叢集上遇到的問題

Exception in thread "main" java.io.IOException: The ownership on the staging directory /tmp/hadoop-yarn/staging/hadoop/.staging is not as exp

SparkStreaming任務保持執行，定時任務監控程序，保證不掛掉

cron任務：每隔1分鐘啟動指令碼，檢查程序是否執行。crontab -e */1 * * * * /data/spark/test.sh 檢查程序，如果程序掛掉，重新啟動Spark任務： #!/bin/sh is_Engine_exist=$(ps aux | grep LbsStreamin

大資料之（1）Centos7上搭建全分散式Hadoop叢集

本文介紹搭建一個Namenode兩個DataNode的Hadoop全分散式叢集的全部步驟及方法。具體環境如下：一、環境準備 3個Centos7虛擬機器或者3個在一個區域網內的實際Centos7機器，機器上已安裝JDK1.8，至於不會安裝Centos7或者JDK1.8的同

搬運搭建高可用mongodb叢集（二）—— 副本集

在上一篇文章《搭建高可用MongoDB叢集（一）——配置MongoDB》提到了幾個問題還沒有解決。主節點掛了能否自動切換連線？目前需要手工切換。主節點的讀寫壓力過大如何解決？從節點每個上面的資料都是對資料庫全量拷貝，從節點壓力會不會過大？資料壓力大到機

搭建自己的部落格（二十二）：通過ajax提交評論資訊，並增加公式編輯功能

編輯功能使用到了ckeditor的MathJax元件。ajax提交評論可以不用重新整理瀏覽器。 1、變化的部分 2、上程式碼： ul.blog-types,ul.blog-dates { list-style-type: none; } div.blog:no

執行SparkStreaming程式時出現 Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.ArrowA異常

Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.ArrowA 這個問題是版本不統一導致的。之前是2.11，編譯出問題

Ubuntu 16.04上搭建CDH5.16.1叢集

本文參考自：《Ubuntu16.04上搭建CDH5.14叢集》 1.準備三臺安裝Ubuntu 16.04.4 LTS系統的伺服器，假設ip地址分佈為 192.168.100.19 192.168.100.20 192.168.100.21 （如果是虛擬機器，建議記憶體配置

《二》Kubernetes叢集部署(node)-搭建單叢集v1.1

在Node節點部署元件 Master apiserver啟用TLS認證後，Node節點kubelet元件想要加入叢集，必須使用CA簽發的有效證書才能與apiserver通訊，當Node節點很多時，簽署證書是一件很繁瑣的事情，因此有了TLS Bootstrapping機制，kubelet會以一個低許可權使用者

Spark學習記錄（二）Spark叢集搭建

Hadoop Spark叢集搭建，以及IDEA遠端除錯環境：Hadoop-2.7.2 jdk-1.8 scala-2-11-12 spark-2.1.0 spark2.0.0開始，只支援Java8版本了，

《二》Kubernetes叢集部署-搭建叢集

多master叢集架構圖時間必須同步、關閉防火牆、Firewalld、selinux 1、拷貝master01 中的kubernetes目錄到master02上[[email protected] ~]# scp -r /opt/kubernetes/ 192.168.1.16:/op

SparkStreaming 搭建《二》執行SparkStreaming在叢集上提交方式

相關推薦