1. 程式人生 > >Windows下Spark python 單機開發環境

Windows下Spark python 單機開發環境

Spark提供的pyspark可以像scala shell一樣提供互動式的開發,本文介紹在windows下單機環境下的pyspark配置,當然資料量小,任務簡單,條件有限的可以在單機上這樣做示例,資料量大任務重的還是配置linux叢集環境。

1.官網下載好的Spark包解壓至某目錄,如E:\spark-2.1.0-bin-hadoop2.6,

這裡寫圖片描述

2.新增環境變數SPARK_HOME如下:

這裡寫圖片描述

3.安裝findspark包,命令如下pip install findspark

4.在寫互動指令碼時,首先匯入findspark包,然後執行findspark.init(),這兩行寫在前邊

這裡寫圖片描述

5.測試例子,簡單測試,讀入資料,輸出第一條資料,中間異常由於是單機環境,還沒有配置hadoop叢集環境,可以忽略:

這裡寫圖片描述

6.後續可以使用Mllib,參考官網的例子進行開發學習。