從0開始學pyspark(一):ubuntu pyspark執行環境配置
最近在研究spark,雖然windows下也能安裝執行spark(親測可行,但是開放9000埠還是連線不上docker上部署的hdfs),但是在windows下使用多有不便,於是安裝了雙系統(網上教程很多),如果在安裝過程中出現卡死問題,可以看看這篇能不能解決 https://blog.csdn.net/tonydz0523/article/details/80532615
在ubuntu上配置環境比較簡單:
1、安裝java
2、安裝spark
安裝java
下載最新的tar包,別忘了點accept license
2、sudo mkdir /usr/lib/jdk
3、系統預設下載到download資料夾,開啟終端cd 到下載檔案資料夾,或者檔案管理器找到資料夾後右鍵開啟終端
4、sudo tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/lib/jdk
5、然後我們需要配置PATH路徑,讓jdk命令在任何路徑下都能夠直接執行
sudo gedit /etc/profile
沒有安裝gedit的可以 vi vim都行
在配置檔案後加上
# java
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
6、重新載入/etc/profile配置檔案
source /etc/proflie
7、執行
java -version
檢視java是否安裝成功 出現如下結果說明安裝成功
java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)
安裝spark
下載包到本地
2、sudo mkdir /usr/lib/spark
3、系統預設下載到download資料夾,開啟終端cd 到下載檔案資料夾,或者檔案管理器找到資料夾後右鍵開啟終端
4、sudo tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /usr/lib/spark
5、配置spark
cd /usr/lib/spark/spark-2.3.0-bin-hadoop2.7/conf/
sudo cp spark-env.sh.template spark-env.sh
sudo gedit spark-env.sh
在最後加上
JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171
SPARK_WORKER_MEMORY=4g
6、然後我們需要配置PATH路徑,讓jdk命令在任何路徑下都能夠直接執行
sudo gedit /etc/profile
沒有安裝gedit的可以 vi vim都行
在配置檔案後加上
#spark
export SPARK_HOME=/usr/lib/spark/spark-2.3.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH
7、重新載入/etc/profile配置檔案
source /etc/proflie
8、執行 pyspark
檢視spark是否安裝成功
出現如下結果說明安裝成功
安裝pyspark
由於本人使用python操作spark,所以使用 pip 安裝了pyspark
pip install pyspark
不知道不裝有沒有影響,沒有嘗試
開啟python執行
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName('test').getOrCreate()
執行順利說明安裝成功
附:
python環境:anaconda安裝
1、下載anaconda,由於官網太慢了,我們到清華映象站下載:
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
拉倒最後就是新版本
2、下載完成cd到檔案目錄執行sudo sh Anaconda3-5.1.0-Linux-x86_64.sh
開始安裝一路回車,yes 就行;最後有個微軟的軟體沒啥用可以no
3、配置系統預設使用anaconda裡的python
sudo gedit ~/.bashrc
根據anaconda安裝位置配置alias python
4、終端輸入python
,結果如下說明配置完成
5、ide的話初學推薦pycharm,其實anaconda自帶jupyter notebook 就很好用
本人剛接觸spark如果有什麼錯誤的話請留言指出