1. 程式人生 > >spark python安裝配置 (初學)

spark python安裝配置 (初學)

需要:jdk10.0、spark2.3.1、Hadoop2.7.7(與spark對應的版本)

1、首先安裝pyspark包:

pip install py4j

pip install pyspark

2、安裝JDK,並配置環境,我的安裝位置為D:\Program Files\Java,接下來是環境配置:

(1)在系統變數中新建變數名JAVA_HOME,對應的是java的安裝位置(我的是:D:\Program Files\Java\jdk-10.0.2),

(2)繼續新建一個CLASSPATH變數,值為:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

(3)在系統變數中找一個變數名為PATH的變數,在後面加:%JAVA_HOME%\bin;%JAVA_HOME%\jre-10.0.2\bin;

安裝完畢,執行-》cmd-》分別輸入java -version 與javac,如下所示,安裝配置JDK成功。

3、安裝spark 

上述連線中spark2.3.1、Hadoop2.7.7均為免安裝版,直接解壓至安裝目錄即可。

(1)spark配置環境變數,在path中新增:D:\Program Files\spark-2.3.1-bin-hadoop2.7\bin;

(2)Hadoop配置環境變數

新建HADOOP_HOME變數,值為:D:\Program Files\hadoop-2.7.7

並在path中新增:%HADOOP_HOME%\bin;

同樣在開始->執行->cmd->輸入pyspark

安裝配置成功。

開啟pycharm配置環境

將pyspar和pyj4加包載入進去就好了。

這樣就可以直接用了,千萬不要作死用pip安裝pyspark和pyj4,還有就是我的python的版本是3.5 ,不知道為什麼3.6版本一直裝不好。

安裝完之後執行一個小小的程式測試一下:

from pyspark.ml.clustering import KMeans
from pyspark.sql import SparkSession
# Loads data.
spark = SparkSession \
        .builder \
        .appName("KMeansExample") \
        .getOrCreate()
dataset = spark.read.format("libsvm").load("E:\pyspark_test\data\sample_kmeans_data.txt")

# Trains a k-means model.
kmeans = KMeans(featuresCol="features", k=2, maxIter=20, seed=None)
model = kmeans.fit(dataset)

# Evaluate clustering by computing Within Set Sum of Squared Errors.
wssse = model.computeCost(dataset)
print("Within Set Sum of Squared Errors = " + str(wssse))

# Shows the result.
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
    print(center)

最簡單的聚類程式,資料集是自帶的,在spark安裝包裡面的data資料夾中。

執行結果:

執行成功,中間的一大片紅色的可以忽略不計,是因為沒有安裝Hadoop相關的包,因為本地開發也用不到。