1. 程式人生 > 其它 >spark-5-windows10中配置spark程式設計環境

spark-5-windows10中配置spark程式設計環境

技術標籤:Spark

1 安裝配置

(1)安裝Java
安裝包:jdk-8u201-windows-x64.exe
在這裡插入圖片描述自動環境變數:D:\Java\jdk1.8.0_201\bin
(2)解壓安裝spark
安裝包:spark-2.4.5-bin-hadoop2.7.tgz
解壓路徑:D:\spark-2.4.5-bin-hadoop2.7

2 程式碼測試

from pyspark import SparkConf,SparkContext
import os

os.environ["SPARK_HOME"]="D:\\spark-2.4.5-bin-hadoop2.7"
os.environ["JAVA_HOME"]="D:\\Java\\jdk1.8.0_201"
os.environ["HADOOP_HOME"]="D:\\hadoop"
#(1)構建上下文
conf=SparkConf().setMaster('local[2]').setAppName('mapUSE')
sc=SparkContext(conf=conf)
#(2)讀取資料形成RDD
listdata=[1,2,3,4,5]
rdd=sc.parallelize(listdata)
print(rdd.collect())

3 異常解決

3.1 缺少winutils.exe檔案

在這裡插入圖片描述(1)下載winutils.exe
地址http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe。
地址https://github.com/srccodes/hadoop-common-2.2.0-bin/tree/master/bin。
(2)自定義hadoop安裝目錄
可以自定義一個hadoop的安裝目錄,裡面新建一個bin目錄即可,然後將winutils.exe放在bin目錄中。
也可以將hadoop的安裝包解壓安裝。
(3)設定HADOOP_HOME環境變數
SetUp your HADOOP_HOME environment variable on the OS level or programmatically。