1. 程式人生 > 實用技巧 >PySpark 安裝教程 使用 Jupyter 作編輯器

PySpark 安裝教程 使用 Jupyter 作編輯器

Spark 的安裝並不依賴於安裝 Hadoop。 當在本地執行Spark的時候,Hadoop並不是必要條件,但依然在執行spark的時候會有一些錯誤,但你忽略即可,無傷大雅。 只有在叢集上執行Spark的時候,才需要 Hadoop

環境:Windows 10

安裝分為以下步驟:

  • Java的安裝(JDK)
  • Python的安裝(Anaconda)
  • pyspark的安裝
  • Jupyter的設定

JDK 的安裝

在JDK官網(OpenJDK, oraclejdk都行)下載安裝包,依次點選下一步即可。此處是用的OpenJDK, 安裝後將 C:\Program Files\AdoptOpenJDK\jdk-14.0.1.7-hotspot\bin

新增進系統的path

path 的新增步驟是: 計算機->右擊->屬性->系統屬性->高階->環境變數->系統變數->找到path

成功的標準是在 powershell 中是否可以識別 java 命令:

python 的安裝

此處使用 anaconda , 在官網下載最近安裝包,注意過程中將 conda 的命令新增進入 path 方便使用。

anaconda 安裝成功的標誌是可以識別 python 命令, conda 命令。

Spark 的安裝

在 spark 官網下載安裝包,名字大概是叫這個: spark-3.0.0-bin-hadoop3.2.tgz

,用 7zip 解壓,成為tar,再解壓一次成為資料夾。我解壓到了E:\spark-3.0.0-bin-hadoop3.2\,進入E:\spark-3.0.0-bin-hadoop3.2\bin 將這個路徑新增上path,和上方一樣的步驟。

安裝成功的標誌是在powershell中輸入 pyspark 可以識別命令。出現型別下面的圖就行了,不用管上方的錯誤提示。

pyspark 的安裝

先更改conda的源到清華的映象,否則慢到抓狂。 見這個連結: https://www.cnblogs.com/heenhui2016/p/12375305.html

開啟一個powershell, 輸入 conda install pyspark

, 確認輸入y,等待下載與安裝。

評價是否安裝成功的標準是輸出以下命令沒有報錯:

import pyspark

jupyter 的設定

  • 新增PYSPARK_DRIVER_PYTHON=jupyter到系統變數
  • 新增PYSPARK_DRIVER_PYTHON_OPTS=lab到系統變數

注意,我是用 jupyter lab 做編輯器,而不是 jupyter notebook,若是以 notebook 作編輯器,將 PYSPARK_DRIVER_PYTHON_OPTS=notebook 新增到系統變數即可。

成功的標誌是執行以下程式碼沒有出毛病:

from pyspark import SparkContext
sc = SparkContext("local", "Hello World App")

檢視版本和相關資訊

如圖中有個 sparkUI 的連結,點進去可檢視Spark的執行情況等。