spark python安裝配置 (初學)
需要:jdk10.0、spark2.3.1、Hadoop2.7.7(與spark對應的版本)
1、首先安裝pyspark包:
pip install py4j
pip install pyspark
2、安裝JDK,並配置環境,我的安裝位置為D:\Program Files\Java,接下來是環境配置:
(1)在系統變數中新建變數名JAVA_HOME,對應的是java的安裝位置(我的是:D:\Program Files\Java\jdk-10.0.2),
(2)繼續新建一個CLASSPATH變數,值為:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
(3)在系統變數中找一個變數名為PATH的變數,在後面加:%JAVA_HOME%\bin;%JAVA_HOME%\jre-10.0.2\bin;
安裝完畢,執行-》cmd-》分別輸入java -version 與javac,如下所示,安裝配置JDK成功。
3、安裝spark
上述連線中spark2.3.1、Hadoop2.7.7均為免安裝版,直接解壓至安裝目錄即可。
(1)spark配置環境變數,在path中新增:D:\Program Files\spark-2.3.1-bin-hadoop2.7\bin;
(2)Hadoop配置環境變數
新建HADOOP_HOME變數,值為:D:\Program Files\hadoop-2.7.7
並在path中新增:%HADOOP_HOME%\bin;
同樣在開始->執行->cmd->輸入pyspark
安裝配置成功。
開啟pycharm配置環境
將pyspar和pyj4加包載入進去就好了。
這樣就可以直接用了,千萬不要作死用pip安裝pyspark和pyj4,還有就是我的python的版本是3.5 ,不知道為什麼3.6版本一直裝不好。
安裝完之後執行一個小小的程式測試一下:
from pyspark.ml.clustering import KMeans from pyspark.sql import SparkSession # Loads data. spark = SparkSession \ .builder \ .appName("KMeansExample") \ .getOrCreate() dataset = spark.read.format("libsvm").load("E:\pyspark_test\data\sample_kmeans_data.txt") # Trains a k-means model. kmeans = KMeans(featuresCol="features", k=2, maxIter=20, seed=None) model = kmeans.fit(dataset) # Evaluate clustering by computing Within Set Sum of Squared Errors. wssse = model.computeCost(dataset) print("Within Set Sum of Squared Errors = " + str(wssse)) # Shows the result. centers = model.clusterCenters() print("Cluster Centers: ") for center in centers: print(center)
最簡單的聚類程式,資料集是自帶的,在spark安裝包裡面的data資料夾中。
執行結果:
執行成功,中間的一大片紅色的可以忽略不計,是因為沒有安裝Hadoop相關的包,因為本地開發也用不到。