Spark歷險記之編譯和遠端任務提交

阿新 • • 發佈：2019-02-12

Spark簡介

Spark是加州大學伯克利分校AMP實驗室（Algorithms, Machines, and People Lab）開發通用記憶體平行計算框架。Spark在2013年6月進入Apache成為孵化專案，8個月後成為Apache頂級專案，速度之快足見過人之處，Spark以其先進的設計理念，迅速成為社群的熱門專案，圍繞著Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等元件，也就是BDAS（伯克利資料分析棧），這些元件逐漸形成大資料處理一站式解決平臺。從各方面報道來看Spark抱負並非池魚，而是希望替代Hadoop在大資料中的地位，成為大資料處理的主流標準，不過Spark還沒有太多大專案的檢驗，離這個目標還有很大路要走。

Spark使用Scala語言進行實現，它是一種面向物件、函數語言程式設計語言，能夠像操作本地集合物件一樣輕鬆地操作分散式資料集（Scala 提供一個稱為 Actor 的並行模型，其中Actor通過它的收件箱來發送和接收非同步資訊而不是共享資料，該方式被稱為：Shared Nothing 模型）。在Spark官網上介紹，它具有執行速度快、易用性好、通用性強和隨處執行等特點。

環境介紹

序號	應用	說明
1	CDH Hadoop2.6	如果想跑在hadoop上，則需要安裝
2	JDK7	底層依賴
3	Scala2.11.7	底層依賴
4	Maven3.3.3	構建編譯打包
5	Ant1.9.5	構建編譯打包
6	Spark1.4.0	主角
7	Intillj IDEA	開發IDE
8	SBT	scala-spark專屬打包構建工具
9	Centos6或Centos7	叢集執行的Linux系統

這裡Hadoop已經安裝完畢，並且能正常工作，Spark可以執行在Standalone模式上，所以假如你沒有Hadoop環境，當然也是可以使用的。

1，下載scala :
wget http://downloads.typesafe.com/scala/2.11.7/scala-2.11.7.tgz?_ga=1.103717955.215870088.1434449855

2，安裝scala ，解壓到某個目錄，並加入環境變數
export SCALA_HOME=/ROOT/server/scala
export PATH=$PATH:$SCALA_HOME/bin

3，下載spark，這裡推薦下載spark原始碼，自己編譯所需對應的hadoop版本，雖然spark官網也提供了二進位制的包！
http://spark.apache.org/downloads.html

4，編譯spark
這裡需要注意，預設的spark編譯，使用的是scala2.10的版本，一定要確保你所有使用的scala在大版本2.10.x範圍內一致，否則在某些情況下可能會出現莫名其妙的問題。
我這裡用的是spark1.4.0的版本，所以只能用scala2.11.x的版本，這就需要重新編譯spark了，另一個原因也需要和對應的haodop版本編譯對應。

編譯步驟
（1）將下載好的spark原始碼解壓到某個目錄下
（2）進入原始碼目錄，分別執行如下命令

設定使用scala那個版本編譯
dev/change-version-to-2.11.sh
maven打包，指定hadoop版本和scala版本
mvn -Pyarn -Phadoop-2.6 -Dscala-2.11 -DskipTests clean package
大概半小時候可編譯成功

5，安裝spark
請參考散仙以前的文章：http://qindongliang.iteye.com/blog/2224797

6，spark測試的幾個命令：

Java程式碼

standlone模式
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://Hadoop-1-231:7077 examples/target/spark-examples_2.11-1.4.0.jar 100
yarn-cluster模式cluster
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster examples/target/spark-examples_2.11

-1.4.0.jar 100
yarn-client模式cluster
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client examples/target/spark-examples_2.11-1.4.0.jar 100

7，遠端任務提交

Spark叢集一般都會部署在Linux上，而我們開發一般都會在windows上，那麼我們想除錯Spark程式，應該怎麼做？

大多數的情況下，你都需要把你的程式打包成一個jar，然後上傳到Linux上，然後在執行測試，這樣非常麻煩，你頻繁改程式碼
就意味著，你得不斷的打包，上傳，打包，上傳，這跟hadoop的除錯是一樣的。

更簡潔的方式，就是直接在編譯器（這裡推薦Intellj IDEA）裡，開發，然後打包，直接在IDEA裡以程式設計方式提交spark任務，這樣在開發期間相對就比較很高效了。

如何打包構建一個spark應用的程式？
（1）安裝使用maven 下載地址 https://maven.apache.org/
（2）安裝使用sbt 下載地址 http://www.scala-sbt.org/

這裡推薦用sbt，專門針對scala專案的進行構建打包的

好吧，也許你需要一個demo來幫助你理解？

在IDEA中，建立一個Scala的SBT專案：

然後在build.sbt檔案中，加入如下依賴：

Java程式碼

name := "spark2117"
version := "1.0"
scalaVersion := "2.11.7"
libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.6.0"
libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "1.4.0"
libraryDependencies += "javax.servlet" % "javax.servlet-api" % "3.0.1"

一段簡單的程式碼：

然後直接執行就能直接在windows上提交任務到Linux上的spark叢集了

IDEA的控制檯裡會列印計算結果：

在Spark的8080監控頁面顯示如下：

8，遇到的問題：
IDEA裡警告日誌顯示：

Java程式碼

15/08/04 19:33:09 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://[email protected]:7077] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].

Spark叢集的Master機器的master的log日誌顯示：

Java程式碼

java.io.InvalidClassException: scala.reflect.ClassTag$$anon$1;
local class incompatible: stream classdesc serialVersionUID = -4937928798201944954,
local class serialVersionUID = -8102093212602380348

伺服器上log是準確的，它告訴我們有客戶端和服務端的序列化版本不一致，意思就是說，你的scala或者是hadoop的版本等跟伺服器上的可能不一致，所以安裝時務必要確定所有的軟體版本號一致。

這個問題，我在stackoverflow上提問了2天，都沒人知道，最後各種瘋狂的找資料才發現就是軟體版本不一致導致的，真是大意失荊州了，解鈴還須繫鈴人！

最後歡迎大家掃碼關注微信公眾號：我是攻城師(woshigcs)，我們一起學習，進步和交流!（woshigcs）
本公眾號的內容是有關搜尋和大資料技術和網際網路等方面內容的分享，也是一個溫馨的技術互動交流的小家園，有什麼問題隨時都可以留言，歡迎大家來訪！

Spark歷險記之編譯和遠端任務提交

Spark歷險記之編譯和遠端任務提交

openjdk7之編譯和debug

C之編譯和鏈接（十八）

Spark MLlib 之 aggregate和treeAggregate從原理到應用

基於Spark2.0搭建Hive on Spark環境(Mysql本地和遠端兩種情況)

Spark-MLlib之分類和迴歸演算法

《深入理解Spark》之RDD和DataFrame的相互轉換

深入理解預編譯，編譯，彙編，連結的過程——之編譯和使用（連結）庫——物件和靜態庫

spark基礎之基於yarn兩種提交模式分析

【Spark Core】TaskScheduler原始碼與任務提交原理淺析2

spark mllib之分類和迴歸

spark基礎之RDD和DataFrame的轉換方式

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

Spark學習之第一個程序打包、提交任務到集群

Spark（六）Spark任務提交方式和執行流程

大資料基礎之Spark（1）Spark Submit即Spark任務提交過程

spark任務提交流程與管依賴和窄依賴

Spark專案之 sparkDemo 八 SparkDemo打包並且Spark任務提交

Spark任務提交 yarn-cluster模式解決jvm記憶體溢位問題以及簡單概述jdk7方法區和jdk8元空間

【Spark-core學習之六】 Spark資源調度和任務調度

Spark歷險記之編譯和遠端任務提交

相關推薦