spark-5-windows10中配置spark程式設計環境
阿新 • • 發佈:2021-01-10
技術標籤:Spark
1 安裝配置
(1)安裝Java
安裝包:jdk-8u201-windows-x64.exe
自動環境變數:D:\Java\jdk1.8.0_201\bin
(2)解壓安裝spark
安裝包:spark-2.4.5-bin-hadoop2.7.tgz
解壓路徑:D:\spark-2.4.5-bin-hadoop2.7
2 程式碼測試
from pyspark import SparkConf,SparkContext import os os.environ["SPARK_HOME"]="D:\\spark-2.4.5-bin-hadoop2.7" os.environ["JAVA_HOME"]="D:\\Java\\jdk1.8.0_201" os.environ["HADOOP_HOME"]="D:\\hadoop" #(1)構建上下文 conf=SparkConf().setMaster('local[2]').setAppName('mapUSE') sc=SparkContext(conf=conf) #(2)讀取資料形成RDD listdata=[1,2,3,4,5] rdd=sc.parallelize(listdata) print(rdd.collect())
3 異常解決
3.1 缺少winutils.exe檔案
(1)下載winutils.exe
地址http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe。
地址https://github.com/srccodes/hadoop-common-2.2.0-bin/tree/master/bin。
(2)自定義hadoop安裝目錄
可以自定義一個hadoop的安裝目錄,裡面新建一個bin目錄即可,然後將winutils.exe放在bin目錄中。
也可以將hadoop的安裝包解壓安裝。
(3)設定HADOOP_HOME環境變數
SetUp your HADOOP_HOME environment variable on the OS level or programmatically。