Windows10+Pycharm+Pyspark環境安裝單機版spark
阿新 • • 發佈:2018-12-22
首先請確保你已經配置好Java1.7以上環境
然後將其解壓至C盤根目錄:【本人使用的是spark-2.2.0-bin-hadoop2.7】
步驟二:安裝python環境【建議python3.5版本】,當然也可以直接安裝Anaconda,然後使用自帶或者建立python環境。
以及pycharm,這裡有很多教程就不再贅述。
步驟三:
1.開啟pycharm-(左上角)file---settings--Project Interpreter--選擇你的python環境
2.開啟解壓後的spark檔案---python---lib:C:\spark-2.2.0-bin-hadoop2.7\python\lib 你會看到有兩個壓縮檔案
將其 貼上 複製 解壓 到你所選python環境的Lib\site-packages中 比如:C:\Python35\Lib\site-packages
然後可在pycharm建立py檔案嘗試輸入import pyspark 若不報錯則證明操作成功【另外也可以直接pip install pyspark==版本號】。下面是檢驗搭建是否
成功的例子程式碼:請務必看完後再嘗試執行
from pyspark import * import os if __name__ == '__main__': # Windows的Spark安裝目錄 os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7' # Create SparkConf conf = SparkConf() \ .setAppName("WordCount") \ .setMaster("local") \ # Create SparkContext sc = SparkContext(conf=conf) # 從本地模擬資料 datas = ["you,jump", "i,jump"] # Create RDD rdd = sc.parallelize(datas) print(rdd.count()) # 2 print(rdd.first()) # you,jum # WordCount wordcount = rdd.flatMap(lambda line: line.split(",")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) for wc in wordcount.collect(): print(wc[0] + " " + str(wc[1])) # you 1 # jump 2 # i 1
當然,要想成功執行還需要一些操作:
'#你需要指定#Windows的Spark安裝目錄:os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7‘
另外你也可以以下圖示指定SPARK_HOME
點選OK即可。
下面可嘗試執行以下程式碼【如果報錯:
Exception: Java gateway process exited before sending the driver its port number
在錯誤之前若出現'cmd' + 一堆亂碼,可能是因為Windows10系統環境變數沒有指定系統目錄
嘗試如下操作:
結束!!!!!!