提交第一個spark作業到叢集執行

阿新 • • 發佈：2019-01-04

寫在前面
接觸spark有一段時間了，但是一直都沒有真正意義上的在叢集上面跑自己編寫的程式碼。今天在本地使用scala編寫一個簡單的WordCount程式。然後，打包提交到叢集上面跑一下…

在本地使用idea開發，由於這個程式比較簡單，我這裡就直接給出程式碼。
這裡寫圖片描述


import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("WordCount" 
);
    val sc=new SparkContext(conf)

    val input=sc.textFile("/home/hadoop/data/test1.txt")
    val lines=input.flatMap(line=>line.split(" "))
    val count=lines.map(word=>(word,1)).reduceByKey{case(x,y)=>x+y}

    val output=count.saveAsTextFile("/home/hadoop/data/output")
  }

}

程式碼，寫完之後，就是打包成一個jar檔案

這裡寫圖片描述

接著，上傳生成的架包到叢集

[hadoop@hadoop000 jars]$ rz

[hadoop@hadoop000 jars]$ ls
scalafirst.jar
[hadoop@hadoop000 jars]$

這裡寫圖片描述

我們的架包上傳好了之後，我們就可以啟動spark叢集了

在開始之前，先來檢視一下需要統計的檔案：
這裡寫圖片描述

啟動master

[[email protected] sbin]$ pwd
/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/sbin
[[email protected] sbin]$ ./start-master.sh 
 
starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop000.out
[[email protected] sbin]$

檢視結果：

[hadoop@hadoop000 sbin]$ jps
25266 Master
25336 Jps
22815 SparkSubmit
[hadoop@hadoop000 sbin]$

可以看見master啟動成功

啟動worker

[[email protected] spark-2.2.0-bin-2.6.0-cdh5.7.0]$ ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://hadoop000:7077

檢視結果：

[hadoop@hadoop000 ~]$ jps
25266 Master
25356 Worker
25421 Jps
22815 SparkSubmit
[hadoop@hadoop000 ~]$

上面的worker也是成功啟動了

提交作業，計算結果

[hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$ ./bin/spark-submit --master spark://hadoop000:7077 --class WordCount /home/hadoop/jars/scalafirst.jar
17/12/02 23:05:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/12/02 23:05:25 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
[Stage 0:>                                                          (0 + 0) / 2[Stage 0:>                                                          (0 + 1) / 2[Stage 0:>                                                          (0 + 2) / 2[Stage 0:=============================>                             (1 + 1) / 2[Stage 1:>                                                          (0 + 0) / 2[Stage 1:>                                                          (0 + 1) / 2[Stage 1:=============================>                             (1 + 1) / 2                                                                               [hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$

檢視結果：

[hadoop@hadoop000 data]$ pwd
/home/hadoop/data
[hadoop@hadoop000 data]$ cd output/
[hadoop@hadoop000 output]$ ls
part-00000  part-00001  _SUCCESS
[hadoop@hadoop000 output]$ cat part-00000
(hive,1)
(,1)
(hello,5)
(kafka,1)
(sqoop,1)
[hadoop@hadoop000 output]$ cat part-00001
(spark,1)
(hadoop,1)
(flume,1)
(hbase,1)
[hadoop@hadoop000 output]$

可以參照之前的：
這裡寫圖片描述
好的，到這裡，我們的統計就已經完成了，可以看見結果也是沒有問題的。就這樣簡單的三個步驟我們就在叢集上面跑了我們的第一個程式。如果，你是初學者，不妨一試喲。。

提交第一個spark作業到叢集執行

寫在前面接觸spark有一段時間了，但是一直都沒有真正意義上的在叢集上面跑自己編寫的程式碼。今天在本地使用scala編寫一個簡單的WordCount程式。然後，打包提交到叢集上面跑一下… 在本地使用idea開發，由於這個程式比較簡單，我這裡就直接給出程式碼

提交第一個spark作業到集群運行

mar you sca 時間 temp worker hbase .net warn 寫在前面接觸spark有一段時間了，但是一直都沒有真正意義上的在集群上面跑自己編寫的代碼。今天在本地使用scala編寫一個簡單的WordCount程序。然後，打包提交到集群上面跑一下..

執行第一個Spark程式

我們這裡使用官方的Spark自帶的一個程式來體驗一下Spark的執行 Spark自帶的例子是利用蒙特·卡羅演算法求PI 在Spark目錄下執行下面命令 bin/spark-submit \ >--master spark://cdh0:7077 \ >--class org.

spark本地環境的搭建到執行第一個spark程式

搭建spark本地環境搭建Java環境 (1)到官網下載JDK 官網連結：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html (2)解壓縮到指定的目錄 >sudo t

[大數據從入門到放棄系列教程]第一個spark分析程序

www. 數據準備 ref 由於分析點擊系列教程沒有文章施工中,由於部分網站會在我還沒有寫完就抓取到這篇文章,導致你看到的內容不完整,請點擊這裏: 或者復制訪問 http://www.cnblogs.com/blog5277/p/8580007.html 來查

Java開發環境的安裝配置及在Eclipse上第一個Java程式的執行

首先，我們需要下載IDE開發環境，下面的網址 https://www.eclipse.org/downloads/download.php?file=/oomph/epp/2018-09/Ra/eclipse-inst-win64.exe 下載完成後，執行我們會看到下面的畫面如果預設

idea開發第一個spark程式---統計文字單詞數

在建立專案之前確保自己本地安裝好了scala環境和java環境，因為spark是scala編寫的，scala和java一樣都是需要編譯成位元組碼，然後在JVM裡面執行。我本地的scala版本是2.11.0版本，hadoop是2.7.6版本第一步：開啟idea，然後建立一個

第一個Spark Streaming案例程式

前面的文章大概的介紹了Spark Streaing流式處理框架，說的通俗點，實際上就是在Spark Core的基礎上進行了封裝，然後將小批次的資料進行處理，處理完了程序並不會停止，而是會一直存在，這樣只要有資料進來，就會進行處理，從而實現了流式處理下面就來一個例項進行感受

IDEA 中開發第一個Spark 程式

1. 建立一個Maven 專案 2. 新增SCALA依賴庫 ****注意scala 的版本相對於spark2.4 ,scala 的版本必須是2.11.x 修改POM.xml 檔案加入 hadoop-client 和spark-core_2.11 的庫依賴

第一個MapReduce案例叢集模式&本地模式

第一個MapReduce案例叢集模式&Linux本地模式記錄一下自己在開發MapReduce程式的過程。思考點是：如何下手，怎樣開發。1.對於平臺的要求：環境已搭建完畢，且測試通過。我自己平臺是：C

編寫第一個Spark程式WordCount

這裡使用IDEA建立專案，其次，在setting-plugins中查詢並安裝外掛Scala 開始建立專案配置sbt name := "spark01" version := "1.0" scalaVersion := "2

java學習（1）第一個java小程式執行解釋

上一篇文章簡單運行了一個java的小程式，其中有兩個命令一個是javac另一個是java。簡單解釋一下這兩個命令的作用，如有不正確的地方請大家多多指教。 javac是java的編譯命令，通過javac編譯原始檔後會生成**.class檔案，這是一種與平臺無關的

tiny6410的Qt4的移植和第一個Qt4軟體的執行以及如何在qtopia下執行自己的qt4程式

開發環境：fedora9 linux-2.6.38 arm-linux-gcc 4.5.1 基於tiny6410的軟硬體環境，tslib用的開發板檔案系統自帶的，用的一線校準，基本上是按照《M

windows系統作為driver遠端提交任務給spark standalone叢集demo

其實這個是上篇文章的升級版。先上demo程式碼吧，其中要改的地方還挺多的，此外，如果不將模型持久化的話，煩請自行修改相關程式碼（demo比較簡單，我就不闡釋他是幹什麼的了）：from pyspark.ml.feature import Word2Vec from pyspar

第一個Spark例項：求PI值

向spark提交jar，需要使用 bin下的spark-submit [[email protected] bin]$ ./spark-submit --help Usage: spark-submit [options] <app jar | pytho

子雨大資料之Spark入門教程---Spark2.1.0入門：第一個Spark應用程式：WordCount 2.2

前面已經學習了Spark安裝，完成了實驗環境的搭建，並且學習了Spark執行架構和RDD設計原理，同時，我們還學習了Scala程式設計的基本語法，有了這些基礎知識作為鋪墊，現在我們可以沒有障礙地開始編寫一個簡單的Spark應用程式了——詞頻統計。任務要求任務：

如何跑通第一個 SQL 作業

簡介：本文由阿里巴巴技術專家周凱波（寶牛）分享，主要介紹如何跑通第一個SQL。一、SQL的基本概念 1.SQL 分類 SQL分為四類，分別是資料查詢語言（DQL）、資料操縱語言（DML）、資料定義（DDL）語言和資料控制語言（DCL）。今天將介紹前三種語言的使用。接下來介紹幾個基本概念。 2.S

第7章在叢集上執行Spark

7.1 簡介 7.2 Spark執行時架構分散式環境下，Spark叢集採用的是主/從結構。驅動器節點：負責中央協調執行器節點：工作節點 Spark應用通過一個叫做叢集管理器的外部服務在叢集中的機器

Spark 執行第一個Scala程式WordCount

安裝首先去官網下載Spark。注意Spark和Hadoop之間版本對應關係，我自己裝的Hadoop 2.7.5版本，按照下面方式下載即可。下載完成後，解壓安裝包至路徑/usr/local tar -zxf ./spark-2.3.0-bin-had

Kubernetes 實戰教學，手把手教您執行第一個 Nginx 叢集

出品丨Docker公司（ID：docker-cn）編譯丨小東每週一、三、五，與您不見不散！ Nginx（發音為“engine-x”）是用於 HTTP、HTTPS、SMTP、POP3 和 IMAP 協議的開源反向代理伺服器，以及負載均衡器、HTTP 快取和 Web 伺服器（源伺服器）。Nginx

提交第一個spark作業到叢集執行

程式碼，寫完之後，就是打包成一個jar檔案

我們的架包上傳好了之後，我們就可以啟動spark叢集了

相關推薦