提交第一個spark作業到集群運行

阿新 • • 發佈：2018-10-31

mar you sca 時間 temp worker hbase .net warn

寫在前面
接觸spark有一段時間了，但是一直都沒有真正意義上的在集群上面跑自己編寫的代碼。今天在本地使用scala編寫一個簡單的WordCount程序。然後，打包提交到集群上面跑一下...

在本地使用idea開發，由於這個程序比較簡單，我這裏就直接給出代碼。
技術分享圖片


import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("WordCount");
    val sc=new SparkContext(conf)

    val input=sc.textFile("/home/hadoop/data/test1.txt")
    val lines=input.flatMap(line=>line.split(" "))
    val count=lines.map(word=>(word,1)).reduceByKey{case(x,y)=>x+y}

    val output=count.saveAsTextFile("/home/hadoop/data/output")
  }

}

代碼，寫完之後，就是打包成一個jar文件

技術分享圖片

接著，上傳生成的架包到集群

[hadoop@hadoop000 jars]$ rz

[hadoop@hadoop000 jars]$ ls
scalafirst.jar
[hadoop@hadoop000 jars]$

技術分享圖片

我們的架包上傳好了之後，我們就可以啟動spark集群了

在開始之前，先來查看一下需要統計的文件：
技術分享圖片

啟動master

[hadoop@hadoop000 sbin]$ pwd
/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/sbin
[hadoop@hadoop000 sbin]$ ./start-master.sh 
starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop000.out
[hadoop@hadoop000 sbin]$

查看結果：

[hadoop@hadoop000 sbin]$ jps
25266 Master
25336 Jps
22815 SparkSubmit
[hadoop@hadoop000 sbin]$

可以看見master啟動成功

啟動worker

[hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$ ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://hadoop000:7077

查看結果：

[hadoop@hadoop000 ~]$ jps
25266 Master
25356 Worker
25421 Jps
22815 SparkSubmit
[hadoop@hadoop000 ~]$

上面的worker也是成功啟動了

提交作業，計算結果

[hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$ ./bin/spark-submit --master spark://hadoop000:7077 --class WordCount /home/hadoop/jars/scalafirst.jar
17/12/02 23:05:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/12/02 23:05:25 WARN Utils: Service ‘SparkUI‘ could not bind on port 4040. Attempting port 4041.
[Stage 0:>                                                          (0 + 0) / 2[Stage 0:>                                                          (0 + 1) / 2[Stage 0:>                                                          (0 + 2) / 2[Stage 0:=============================>                             (1 + 1) / 2[Stage 1:>                                                          (0 + 0) / 2[Stage 1:>                                                          (0 + 1) / 2[Stage 1:=============================>                             (1 + 1) / 2                                                                               [hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$

查看結果：

[hadoop@hadoop000 data]$ pwd
/home/hadoop/data
[hadoop@hadoop000 data]$ cd output/
[hadoop@hadoop000 output]$ ls
part-00000  part-00001  _SUCCESS
[hadoop@hadoop000 output]$ cat part-00000
(hive,1)
(,1)
(hello,5)
(kafka,1)
(sqoop,1)
[hadoop@hadoop000 output]$ cat part-00001
(spark,1)
(hadoop,1)
(flume,1)
(hbase,1)
[hadoop@hadoop000 output]$

可以參照之前的：
技術分享圖片
好的，到這裏，我們的統計就已經完成了，可以看見結果也是沒有問題的。就這樣簡單的三個步驟我們就在集群上面跑了我們的第一個程序。如果，你是初學者，不妨一試喲。。

提交第一個spark作業到集群運行

mar you sca 時間 temp worker hbase .net warn 寫在前面接觸spark有一段時間了，但是一直都沒有真正意義上的在集群上面跑自己編寫的代碼。今天在本地使用scala編寫一個簡單的WordCount程序。然後，打包提交到集群上面跑一下..

提交第一個spark作業到叢集執行

寫在前面接觸spark有一段時間了，但是一直都沒有真正意義上的在叢集上面跑自己編寫的程式碼。今天在本地使用scala編寫一個簡單的WordCount程式。然後，打包提交到叢集上面跑一下… 在本地使用idea開發，由於這個程式比較簡單，我這裡就直接給出程式碼

3.2、spark集群運行應用之第三方jar的處理方式

print ext collect each bsp com converter 應用 ins 在編寫程序時，不可避免會用到第三方jar，有三種使用方式： 1、將運行程序需要的所有第三方 jar，分發到所有spark的/soft/spark/jars下 2、將第三方jar打

Mapreduce提交YARN集群運行

執行項目目錄通過 pac -c 包名打包 strong Eclipse項目打包1.export2.通過maven打包，切入到項目目錄下執行命令mvn clean package Mapreduce提交YARN集群運行將jar包傳到hadoop目錄下運行格式：bin

在kubernetes 集群運行 odoo

rip yaml logs .cn 微軟雅黑 gre 執行 post uber kubernetes 可以自動運行多個 odoo服務的副本，因此非常適用用來做高可用的odoo部署，在本例中，odoo服務運行在 kubernetes 集群中，而 pos

關於大數據領域各個組件打包部署到集群運行的總結（含手動和maven）（博主推薦）

reduce count 圖片 bar big href alt 關於 hdfs 對於這裏的打包，總結：　　(1) 最簡單的，也是為了適應公司裏，還是要用maven，當然spark那邊sbt，maven都可以。但是maven居多。 Eclipse/MyEclips

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十三）定義一個avro schema使用comsumer發送avro字符流，producer接受avro字符流並解析

finall ges records ring ack i++ 一個 lan cde 參考《在Kafka中使用Avro編碼消息：Consumer篇》、《在Kafka中使用Avro編碼消息：Producter篇》 pom.xml <depende

部署AlwaysOn第三步：集群資源組的健康檢測和故障轉移

exe htm 有一個監控器 name 檢查 oar ges 包含資源組是由一個或多個資源組成的組，WSFC的故障轉移是以資源組為單位的，資源組中的資源是相互依賴的。一個資源所依賴的其他資源必須和該資源處於同一個資源組，跨資源組的依賴關系是不存在的。在任何時刻，每個資源

用 LVS 搭建一個負載均衡集群（轉）

always iptable sina watch 通過 main test 集群服務器負載 http://blog.jobbole.com/87503/ 第一篇：《如何生成每秒百萬級別的 HTTP 請求？》第二篇：《為最佳性能調優 Nginx》第三篇：《用 L

[大數據從入門到放棄系列教程]第一個spark分析程序

www. 數據準備 ref 由於分析點擊系列教程沒有文章施工中,由於部分網站會在我還沒有寫完就抓取到這篇文章,導致你看到的內容不完整,請點擊這裏: 或者復制訪問 http://www.cnblogs.com/blog5277/p/8580007.html 來查

手動安裝K8s第三節：etcd集群部署

docker kubernetes 容器手動安裝K8s第三節：etcd集群部署準備安裝包https://github.com/coreos/etcd版本：3.2.18wget https://github.com/coreos/etcd/releases/download/v3.2.18/et

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（三）安裝spark2.2.1

node word clas 執行選擇 dir clust 用戶名 uil 如何配置centos虛擬機請參考《Kafka：ZK+Kafka+Spark Streaming集群環境搭建（一）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。》如

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（九）安裝kafka_2.11-1.1.0

itl CA blog tor line cat pre PE atan 如何搭建配置centos虛擬機請參考《Kafka：ZK+Kafka+Spark Streaming集群環境搭建（一）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。》如

hadoop+Spark+hbase集群動態增加節點

控制臺完成卸載 nag block cluster dfs clust width 分布式系統的一個優勢就是動態可伸縮性，如果增刪節點需要重啟那肯定是不行的。後來研究了一下，發現的確是不需要重啟集群，直接在新增的節點上分別啟動以下進程即可：以hadoop、spark和h

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。

centos 失敗 sco pan html top n 而且 div href Centos7出現異常：Failed to start LSB: Bring up/down networking. 按照《Kafka：ZK+Kafka+Spark Streaming集群環

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十七）待整理

lan post -a 客戶端客戶 struct bsp www get redis按照正則批量刪除key redis客戶端--jedis 在Spark結構化流readStream、writeStream 輸入輸出，及過程ETL Spark Structur

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十九）待整理

set dstream 搭建 details 編程指南 .com .cn csdn read redis按照正則批量刪除key redis客戶端--jedis 在Spark結構化流readStream、writeStream 輸入輸出，及過程ETL Spark St

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

ack loss set div top 過程 pan check use 事情經過：之前該topic(M_A)已經存在，而且正常消費了一段時間，後來刪除了topic(M_A)，重新創建了topic（M-B），程序使用新創建的topic（M-B）進行實時統計操作，執行過程中

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十五）Structured Streaming：同一個topic中包含一組數據的多個部分，按照key它們拼接為一條記錄（以及遇到的問題）。

eas array 記錄 splay span ack timestamp b- each 需求：目前kafka的topic上有一批數據，這些數據被分配到9個不同的partition中（就是發布時key:{m1,m2,m3,m4...m9},value:{records

『中級篇』docker-swarm創建一個多節點集群（43）

fine containe 創建 lock tis -cp -a lang virt >原創文章，歡迎轉載。轉載請註明：轉載自IT人故事會，謝謝！>原文鏈接地址：『中級篇』docker-swarm創建一個多節點集群（43） docker Swarm是Docker

提交第一個spark作業到集群運行

代碼，寫完之後，就是打包成一個jar文件

我們的架包上傳好了之後，我們就可以啟動spark集群了

相關推薦