Spark 2.2.0下載安裝及原始碼編譯
1.官網
2.下載地址
3.所需環境
- jdk1.8+ 參考地址
- maven3.3.9 參考地址,下載maven後進行環境變數的設定,設定maven的記憶體使用,在環境變數中加入如下命令
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"
- scala2.11.8 參考地址
- git:直接輸入命令:
sudo yum install git
下載git
4.原始碼編譯
為什麼選擇原始碼編譯呢,如果直接選擇官網下載好的會少一些jar包,重要的時很多元件的版本可能並不是我們想要的
- 官網參考地址
4.1方式一:
mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
命令解釋:
-Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0:指定Hadoop版本和啟用執行緒
-Phive -Phive-thriftserver:JDBC支援的構建
第一次編譯的話可能會報錯,報錯內容如下:
[ERROR] Failed to execute goal on project spark-launcher_2.11 :
Could not resolve dependencies for project org.apache.spark:spark-launcher_2.11:jar:2.2.0:
Could not find artifact org.apache.hadoop:hadoop-client:jar:2.6.0-cdh5.7.0 in central (https://repo1.maven.org/maven2) -> [Help 1]
這個錯誤很明顯,https://repo1.maven.org/maven2 該連線是預設的中央倉庫地址,使用maven下載jar包但是預設的連線著並沒有找到,所以我們要修改pom.xml的設定,在pom.xml新增如下內容:
<repositories>
<repository>
<id>cloudera</id>
<name>cloudera Repository</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>
- 再次輸入編譯命令,即可。
4.2方式二:
建議使用該方式,會把原始碼編譯成tar.gz包
./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Dhadoop.version=2.6.0-cdh5.7.0 \
-Phadoop-2.6 \
-Phive -Phive-thriftserver \
-Pyarn
這裡可能又會遇到一個情況,編譯很慢,所以我們要進行如下修改:
- make-distribution.sh(修改dev目錄下的make-distribution.sh檔案)
dev/make-distribution.sh
註釋這一段:
#VERSION=$("$MVN" help:evaluate -Dexpression=project.version [email protected] 2>/dev/null | grep -v "INFO" | tail -n 1)
#SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version [email protected] 2>/dev/null\
# | grep -v "INFO"\
# | tail -n 1)
#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version [email protected] 2>/dev/null\
# | grep -v "INFO"\
# | tail -n 1)
#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive [email protected] 2>/dev/null\
# | grep -v "INFO"\
# | fgrep --count "<id>hive</id>";\
# # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\
# # because we use "set -o pipefail"
# echo -n)
加入下面的內容:
VERSION=2.2.0
SCALA_VERSION=2.11
SPARK_HADOOP_VERSION=2.6.0-cdh5.7.0
SPARK_HIVE=1
- 編譯:
Building with...
+ echo -e '$ /opt/sourcecode/spark-2.2.0/build/mvn' -T 1C clean package -DskipTests --tgz-Dhadoop.version=2.6.0-cdh5.7.0 -Phadoop-2.6 -Phive -Phive-thriftserver '-Pyarn\n'
$ /opt/sourcecode/spark-2.2.0/build/mvn -T 1C clean package -DskipTests --tgz-Dhadoop.version=2.6.0-cdh5.7.0 -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn
+ /opt/sourcecode/spark-2.2.0/build/mvn -T 1C clean package -DskipTests --tgz-Dhadoop.version=2.6.0-cdh5.7.0 -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn
exec: curl --progress-bar -L https://downloads.typesafe.com/zinc/0.3.11/zinc-0.3.11.tgz
- spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz的生成
[hadoop@zhangyu spark-2.2.0]$ ll
在該目錄下會生成:
-rw-rw-r--. 1 hadoop hadoop 198982482 Jan 22 18:50 spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz
該目錄的由來:我們可以檢視make-distribution.sh檔案中可以檢視如下的指令碼命令
生成的目標檔案由來:
if [ "$MAKE_TGZ" == "true" ]; then
TARDIR_NAME=spark-$VERSION-bin-$NAME
TARDIR="$SPARK_HOME/$TARDIR_NAME"
rm -rf "$TARDIR"
cp -r "$DISTDIR" "$TARDIR"
tar czf "spark-$VERSION-bin-$NAME.tgz" -C "$SPARK_HOME" "$TARDIR_NAME"
rm -rf "$TARDIR"
fi
- 解壓
[hadoop@zhangyu software]$ sudo tar -zxvf spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz
5 Spark安裝包目錄結構說明
- bin:存放客戶端相關的指令碼
- conf:存放配置檔案
- data:存放測試資料
- examples:Spark自帶的測試用例,裡面有很多好的例子**
- jars:存放Spark相關的jar包(最佳實踐)
- sbin:存放服務端相關的指令碼,啟動停止叢集。。。
- yarn:存放yarn相關的jar包
相關推薦
Spark 2.2.0下載安裝及原始碼編譯
1.官網 2.下載地址 3.所需環境 jdk1.8+ 參考地址 maven3.3.9 參考地址,下載maven後進行環境變數的設定,設定maven的記憶體使用,在環境變數中加入如下命令
Git下載安裝及原始碼拷貝
Git是一款免費、開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的專案,是一個開源的分散式版本控制系統,用以有效、高速的處理從很小到非常大的專案版本管理。 大概介紹就到這,我所知道
VTK學習筆記1—VTK安裝及原始碼編譯(Winxp + VS2010 + CMake2.8.6 + VTK5.8)
為了安裝編譯VTK,在網上找了一些相關資料作為參考,在原始碼編譯過程中也遇到了一些問題,後解決,現在將筆記整理如下: Winxp + VS2010 + CMake2.8.6 + VTK5.8 1、準備: 1)下載安裝Vs2010 2)下載安裝CMake2.8
JDK下載安裝及配置最新10.0.2
目錄 二、安裝 三、配置 四、測試 一、下載JDK10.0.2 我的系統是windows10 下載安裝最新版本的JDK,有些說舊版本如何如何,建議還是最新的,相較於舊版本肯定有所提升 我所對應的就是最後一個,首先點選上面的Accept Lic
<小田吃餃子> LINUX:Contos7.0 / 7.2 LAMP+R 下載安裝Php篇
ssl itl 搭建 hle file 使用 mcr not soc 更新時間:2017-09-21 16:03 簡介 LAMP+R指Linux+Apache+Mysql+PHP+Redis是一組常用來搭建動態網站或者服務器的開源軟件,本身都是各自獨立的程序,但是因為常
<小田吃餃子> LINUX:Contos7.0 / 7.2 LAMP+R 下載安裝Redis篇
php+redis pac apache ron 在一起 tor blank amp .cn 更新時間:2017-09-21 15:38 簡介 LAMP+R指Linux+Apache+Mysql+PHP+Redis是一組常用來搭建動態網站或者服務器的開源軟件,本身都是各自獨
centos7.2下caffe的安裝及編譯
libtool centos log 安裝 blog c-c++ yum atl sna 1、前期準備 安裝依賴 sudo yum install protobuf-devel leveldb-devel snappy-devel opencv-devel boost-
虛擬機VMware-workstation-15.0.0-10134415下載安裝及密鑰
cubemap 采樣 方法 虛擬機vm 右鍵 用戶體驗 內存 虛擬 ade 新增功能 Workstation 15 Pro 中新增了以下支持: 支持新的客戶機操作系統 Windows 10 1803 Ubuntu 18.04 Fedora 28 RH
libusb-win32-bin-1.2.6.0驅動安裝方法
本驅動是Windows系統下(包含主流的Windows XP, Windows7)下的驅動,官方網址為,http://sourceforge.net/apps/trac/libusb-win32/wiki,裡面可以找到libusb-win32的介紹,在該網頁找到download,進入http://s
tengine-2.1.0的安裝編譯過程
目錄 1 先上傳壓縮包 2 解壓縮 tar -xf不看過程,tar -zxvf有詳細過程 3 檢視安裝步驟 3.1 cd tengine-2.1.0進入解壓後的資料夾 3.2 ls 發現README.txt檔案 3.3 vi README 4 按照上
PHP入門(2)WampServer的安裝及使用
安裝 一直點選next即可。 如何檢驗環境配置成功 (1)開啟WampServer,會有一個cmd視窗一閃而過。 (2)桌面右下角工作列中WampServer圖示變為綠色,若一直為橙色或紅色則表示服務沒有完全開啟。 (3)左鍵單擊右下角工作列中WampServer圖示,單擊Lo
spark-2.2.0-bin-2.6.0-cdh5.12.1.tgz 編譯方法總結!
菜雞一隻,如果有說錯的地方,還請見諒和指出批評!! 事情是這樣的,想在自己本地部署一個hadoop2.6.0-cdh5.12.1,hive1.1.0-cdh5.12.1,spark-2.2.0-bin-2.6.0-cdh5.12.1的環境,前兩個還是很好找到哪裡下載和部署的! c
Hive 2.1.0叢集安裝
Hive 2.1.0叢集安裝 1.配置伺服器 1個主節點:master(192.168.20.191),2個(從)子節點, node1(192.168.20.192), node2(192.168.20.193) 2.將jdbc的jar包放到$HIVE_HOME下 cd
webstorm 2018.2.5的下載安裝
一、 官網下載: https://www.jetbrains.com/webstorm/download/download-thanks.html?platform=windows 二、 安裝流程: create desktop shortcuts: 64-bit lauch
Linux下Elasticsearch-2.4.0的安裝與簡單配置(單節點)
下載地址: 傳到伺服器 ftp工具或者 rz指令,解壓檔案: tar -zxvf elasticsearch-2.4.0.tar.gz 建立使用者及授權 sudo useradd elsearch chown -R elsearch:elsearch /us
hadoop2.2支援snappy壓縮安裝及配置
由於我們的生產環境沒有root使用者使用許可權,且為了不在所有主機上安裝一些依賴外掛,因此我啟用了使用hadoop native本地庫,即在core-site.xml中配置了: <property>
Bullet3-2.87在Ubuntu16.04下原始碼編譯安裝
編譯安裝Bullet3-2.87 安裝過程其實很簡單,有多重原始碼安裝方法,這裡提供兩種: 方法1: cd bullet3-2.87 mkdir build && cd build cmake .. make sudo make ins
QT 5.3.2+OpenCV3.0的安裝與配置
QT 5.3.2+OpenCV3.0的安裝與配置 (win8 64 bit + OpenCV3.0 + minGW32) 原文連結:http://blog.163.com/nuc_baixu/blog/static/25124607820159149235731/
Ubuntu Server 16.04.2 LTS英文版的安裝及搭建最新LAMP環境
自己想搭建個Owncloud的私有云,本人純小白,專業用語不一定標準,但整體流程都是實際操作下來,有不足往指正。 參考: Ubuntu 16.04 Server Edition 英文版安裝教程 Ubuntu16.04下搭建最新LAMP環境 系統選用的是[
A10 負載均衡模擬器下載安裝及license免費激活詳細介紹
負載均衡 f5 a10 模擬器下載 A10 Networks官網免費提供Vthunder模擬器下載,並免費提供30天、5Mbps吞吐全功能模塊的License;獲取方法如下:1、首先,登錄A10 Networks官網,提交Vthunder模擬下載申請,申請地址:https://glm.a10n