PyCharm搭建Spark開發環境的實現步驟

阿新 • • 發佈：2020-01-09

1.安裝好JDK

下載並安裝好jdk-12.0.1_windows-x64_bin.exe，配置環境變數：

新建系統變數JAVA_HOME，值為Java安裝路徑
新建系統變數CLASSPATH，值為 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;（注意最前面的圓點）
配置系統變數PATH，新增 %JAVA_HOME%bin;%JAVA_HOME%jrebin

在CMD中輸入：java或者java -version，不顯示不是內部命令等，說明安裝成功。

2.安裝Hadoop，並配置環境變數

下載hadoop：https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

在這裡插入圖片描述

解壓hadoop-2.7.7.tar.gz特定路徑，如：D:\adasoftware\hadoop
新增系統變數HADOOP_HOME：D:\adasoftware\hadoop
在系統變數PATH中新增：D:\adasoftware\hadoop\bin
安裝元件winutils：將winutils中對應的hadoop版本中的bin替換自己hadoop安裝目錄下的bin

3.Spark環境變數配置

spark是基於hadoop之上的，執行過程中會呼叫相關hadoop庫，如果沒配置相關hadoop執行環境，會提示相關出錯資訊，雖然也不影響執行。

下載對應hadoop版本的spark：http://spark.apache.org/downloads.html

解壓檔案到：D:\adasoftware\spark-2.4.3-bin-hadoop2.7
新增PATH值：D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin;
新建系統變數SPARK_HOME：D:\adasoftware\spark-2.4.3-bin-hadoop2.7;

4.下載安裝anaconda

anaconda集成了python直譯器和大多數python庫，安裝anaconda 後不用再安裝python和pandas numpy等這些元件了。下載地址。最後將python加到path環境變數中。

5.在CMD中執行pyspark，出現類似下圖說明安裝配置正常：

在這裡插入圖片描述

出現這種warning是因為JDK版本為12，太高了，但是不影響執行。沒有影響。

6.在pycharm中配置spark

開啟PyCharm，建立一個Project。然後選擇“Run” ->“Edit Configurations”–>點選+建立新的python Configurations

在這裡插入圖片描述

選擇 “Environment variables” 增加SPARK_HOME目錄與PYTHONPATH目錄。

SPARK_HOME:Spark安裝目錄
PYTHONPATH:Spark安裝目錄下的Python目錄

在這裡插入圖片描述

選擇 File->setting->你的project->project structure

右上角Add content root新增：py4j-some-version.zip和pyspark.zip的路徑（這兩個檔案都在Spark中的python資料夾下）

儲存即可

7.測試是否配置成功，程式程式碼如下，建立一個python程式放進去就可以：

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME'] = "D:\adasoftware\spark"

# Append pyspark to Python Path
sys.path.append("D:\adasoftware\spark\python")

try:
  from pyspark import SparkContext
  from pyspark import SparkConf

  print("Successfully imported Spark Modules")
except ImportError as e:
  print("Can not import Spark Modules",e)
  sys.exit(1)

若程式正常輸出: "Successfully imported Spark Modules"就說明環境已經可以正常執行。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

PyCharm搭建Spark開發環境的實現步驟

1.安裝好JDK 下載並安裝好jdk-12.0.1_windows-x64_bin.exe，配置環境變數：新建系統變數JAVA_HOME，值為Java安裝路徑

spark 之 windows下基於IDEA搭建spark開發環境實現wordcount功能

環境準備因為Spark是scala語言開發的，scala是java語言開發的，所以需要安裝JDK和scala。

VSCode+Gradle搭建Java開發環境實現

前言其實目前已經有許多優秀的IDE都是支援JAVA開發的，比如Eclipse、NetBeans、IntelliJ IDEA、Android Studio等，如果是專案級的開發，並且對這些IDE也已經十分滿意的話，可以不用再來折騰VSCode(Visual Studio Co

IntelliJ IDEA基於SpringBoot如何搭建SSM開發環境的步驟詳解

之前給大家在博文中講過如何通過eclipse快速搭建SSM開發環境，但相對而言還是有些麻煩的，今天玄武老師給大家介紹下如何使用IntelliJ IDEA基於SpringBoot來更快速地搭建SSM開發環境，相比於傳統搭建方式，極少的配置

Spark 系列（二）—— Spark開發環境搭建

一、安裝Spark 1.1 下載並解壓官方下載地址：spark.apache.org/downloads.h… ，選擇 Spark 版本和對應的 Hadoop 版本後再下載：

PyCharm使用Docker映象搭建Python開發環境

在我們平時使用PyCharm的過程中，一般都是連線本地的Python環境進行開發，但是如果是離線的環境呢？這樣就不好搭建Python開發環境，因為第三方模組的依賴複雜，不好通過離線安裝包的方式安裝。本文將介紹如何利用PyC

Electron整合React使用搭建開發環境的步驟詳解

簡介用於構建使用者介面的 JavaScript 庫步驟首先建立React npx create-react-app doc 進入到doc專案

macOS High Sierra 10.13.3全新搭建PHP開發環境

用了快三年的Mac Pro出現問題，蘋果公司幫忙換了一臺全新的，所以沒辦法，只能重新裝環境，裝平時開發所需的各種軟體，本著樂於助人的雷鋒精神也把這次搭建寫出來，希望可以幫助更多人。

IDEA快速搭建Java開發環境的教程圖解

作為IntelliJ IDEA mac新手，IDEA如何快速搭建Java開發環境呢？今天小編就給大家帶來了IntelliJ IDEA mac使用教程，想知道IDEA如何快速搭建Java開發環境？那就一起來看看吧！

VirtualBox CentOS7.7.1908 Python3.8 搭建Scrapy開發環境【圖文教程】

環境 VirtualBox_v6.0.14 CentOS_v7.1908 Python_v3.8.0 MongoDB_v3.2.22 pip_v19.3.1 windows Pycharm-2019.2.3企業版(社群版不支援遠端連線linux開發)，需啟用使用系統自帶Python2.7.5不做處理，嘗試過pyenv安裝3