PySpark 安裝教程 使用 Jupyter 作編輯器
Spark 的安裝並不依賴於安裝 Hadoop。 當在本地執行Spark的時候,Hadoop並不是必要條件,但依然在執行spark的時候會有一些錯誤,但你忽略即可,無傷大雅。 只有在叢集上執行Spark的時候,才需要 Hadoop
環境:Windows 10
安裝分為以下步驟:
- Java的安裝(JDK)
- Python的安裝(Anaconda)
- pyspark的安裝
- Jupyter的設定
JDK 的安裝
在JDK官網(OpenJDK, oraclejdk都行)下載安裝包,依次點選下一步即可。此處是用的OpenJDK, 安裝後將 C:\Program Files\AdoptOpenJDK\jdk-14.0.1.7-hotspot\bin
path
。
path
的新增步驟是: 計算機->右擊->屬性->系統屬性->高階->環境變數->系統變數->找到path
成功的標準是在 powershell 中是否可以識別 java
命令:
python 的安裝
此處使用 anaconda , 在官網下載最近安裝包,注意過程中將 conda 的命令新增進入 path 方便使用。
anaconda 安裝成功的標誌是可以識別 python 命令, conda 命令。
Spark 的安裝
在 spark 官網下載安裝包,名字大概是叫這個: spark-3.0.0-bin-hadoop3.2.tgz
E:\spark-3.0.0-bin-hadoop3.2\
,進入E:\spark-3.0.0-bin-hadoop3.2\bin
將這個路徑新增上path,和上方一樣的步驟。
安裝成功的標誌是在powershell中輸入 pyspark 可以識別命令。出現型別下面的圖就行了,不用管上方的錯誤提示。
pyspark 的安裝
先更改conda的源到清華的映象,否則慢到抓狂。 見這個連結: https://www.cnblogs.com/heenhui2016/p/12375305.html
開啟一個powershell, 輸入 conda install pyspark
評價是否安裝成功的標準是輸出以下命令沒有報錯:
import pyspark
jupyter 的設定
- 新增
PYSPARK_DRIVER_PYTHON=jupyter
到系統變數 - 新增
PYSPARK_DRIVER_PYTHON_OPTS=lab
到系統變數
注意,我是用
jupyter lab
做編輯器,而不是jupyter notebook
,若是以notebook
作編輯器,將PYSPARK_DRIVER_PYTHON_OPTS=notebook
新增到系統變數即可。
成功的標誌是執行以下程式碼沒有出毛病:
from pyspark import SparkContext
sc = SparkContext("local", "Hello World App")
檢視版本和相關資訊
如圖中有個 sparkUI
的連結,點進去可檢視Spark的執行情況等。