spark python安裝配置 (初學)

阿新 • • 發佈：2019-02-17

需要：jdk10.0、spark2.3.1~~、Hadoop2.7.7（與spark對應的版本）~~

~~1、首先安裝pyspark包：~~

~~pip install py4j~~

~~pip install pyspark~~

2、安裝JDK，並配置環境，我的安裝位置為D:\Program Files\Java，接下來是環境配置：

（1）在系統變數中新建變數名JAVA_HOME，對應的是java的安裝位置（我的是：D:\Program Files\Java\jdk-10.0.2），

（2）繼續新建一個CLASSPATH變數，值為：.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

（3）在系統變數中找一個變數名為PATH的變數，在後面加：%JAVA_HOME%\bin;%JAVA_HOME%\jre-10.0.2\bin;

安裝完畢，執行-》cmd-》分別輸入java -version 與javac，如下所示，安裝配置JDK成功。

3、安裝spark

上述連線中spark2.3.1~~、Hadoop2.7.7~~均為免安裝版，直接解壓至安裝目錄即可。

（1）spark配置環境變數，在path中新增：D:\Program Files\spark-2.3.1-bin-hadoop2.7\bin;

~~（2）Hadoop配置環境變數~~

~~新建HADOOP_HOME變數，值為：D:\Program Files\hadoop-2.7.7~~

~~並在path中新增：%HADOOP_HOME%\bin;~~

同樣在開始->執行->cmd->輸入pyspark

安裝配置成功。

開啟pycharm配置環境

將pyspar和pyj4加包載入進去就好了。

這樣就可以直接用了，千萬不要作死用pip安裝pyspark和pyj4，還有就是我的python的版本是3.5 ，不知道為什麼3.6版本一直裝不好。

安裝完之後執行一個小小的程式測試一下：

from pyspark.ml.clustering import KMeans
from pyspark.sql import SparkSession
# Loads data.
spark = SparkSession \
        .builder \
        .appName("KMeansExample") \
        .getOrCreate()
dataset = spark.read.format("libsvm").load("E:\pyspark_test\data\sample_kmeans_data.txt")

# Trains a k-means model.
kmeans = KMeans(featuresCol="features", k=2, maxIter=20, seed=None)
model = kmeans.fit(dataset)

# Evaluate clustering by computing Within Set Sum of Squared Errors.
wssse = model.computeCost(dataset)
print("Within Set Sum of Squared Errors = " + str(wssse))

# Shows the result.
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
    print(center)

最簡單的聚類程式，資料集是自帶的，在spark安裝包裡面的data資料夾中。

執行結果:

執行成功，中間的一大片紅色的可以忽略不計，是因為沒有安裝Hadoop相關的包，因為本地開發也用不到。

spark python安裝配置 (初學)

需要：jdk10.0、spark2.3.1、Hadoop2.7.7（與spark對應的版本） 1、首先安裝pyspark包： pip install py4j pip install pyspark 2、安裝JDK，並配置環境，我的安裝位置為D

python安裝配置+pycharm

python下載和配置 pycharm下載我下載的是專業版關於破解流程 1、C:\Windows\System32\drivers\etc目錄下找到 hosts 檔案 2、開啟hosts檔案將新增到檔案末尾 3、拷貝如下注冊碼 K71U8DB

docker中spark+scala安裝配置

一、scala安裝首先下載scala壓縮包 wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz 解壓 tar -zxvf scala-2.11.7.tgz 移動目錄 mv scala-2.11

python安裝配置

自動啟動區分擴展切換手動 windows系統 rom clone 選擇一、首先Python2.x與Python3.x選擇；　　Python2.x在近幾年開始，官方態度有所改變，Python2.x的開發逐漸進入消極狀態，版本更新速度明顯要比Python3.x要慢很

spark的安裝配置

一、系統安裝：centos7 1.新建三臺虛擬機器 2.新建完成後進入虛擬機器安裝系統，選擇最小安

python中安裝配置pyspark庫教程需要配合spark+hadoop使用

單獨安裝pyspark庫在單機上是沒法執行的，需要有相應的分散式軟體，這裡可以是spark+hadoop，配置安裝教程連結：spark2.3在window10當中來搭建python3的使用環境pyspark配置pyspark庫之前在安裝spark的時候，提到過pyspark庫

Centos下Spark單機版（python）安裝配置

如果上面都成功了，那說明我們就基本安裝成功了，可以用scala或者python來開發相關程式了。但是如果我們希望能夠在一個很清新的IDE中開發程式怎麼辦？那麼這裡強烈推薦一款互動式的開發工具-jupyter notebook。接下來我們就來配置該工具，以保證能連線上sprak。

Python之路58-Django安裝配置及一些基礎知識點

python目錄一、安裝Django二、創建工程三、創建app四、靜態文件五、模板路徑六、設置settings七、定義路由八、定義視圖九、渲染模板十、運行Django是一款Python的web框架一、安裝Djangopip3 install django安裝完成後C:\Python35\Script下面會生成

【Python】python2.7 安裝配置OpenCV2

pen 2.4.1 安裝 so文件 strong make lib con ack 環境：Ubuntu16.04 anaconda Python2.7 opencv2.4.13 安裝opencv後 import cv2 遇到錯誤信息： No module named cv2

OpenGL初學:安裝配置與第一個程序

ssi -m sphere 選擇 system32 fonts imp b2c 矩形計算機圖形學要用到OpenGL,我把我安裝的過程和當中遇到的一些問題記錄下。希望對OpenGL的剛開始學習的人有幫助^ ^ OpenGL簡單介紹： OpenGL? 是行業領域中最為

python安裝與配置

可執行文件通過主題 .py arm community 下載打開外觀首先下載python地址： https://www.python.org/downloads/release/python-361/下載頁面中有多個版本： web-based installe

Windows安裝配置Python Scrapy環境

pil microsoft div scrapy 現在 soft python2.7 輸入 compile 下載並安裝Microsoft Visual C++ Compiler for Python 2.7（lxml的依賴環境，lxml是scrapy的依賴環境）

Python安裝與環境變量的配置

分號 log 需要技術分享 install 系統設置 color cnblogs 分享 python下載： Python安裝包下載地址：http://www.python.org/

Windows環境下安裝配置Anaconda的Python開發環境

anacondaPython官方自帶的軟件只有基礎的庫文件，而在編程過程中需要使用各種類型的庫，都需要花費大量的時間去查找並不斷下載庫文件並加載到環境中去才能使用，這也是我自學Python遇到的一個困難點，anaconda提供了一個整合的環境解決了這個問題。官方下載地址如下：（這裏選擇的是windows版本

Python | 安裝和配置智能提示插件Anaconda （轉）

主程序 content ima aid 默認 afa ssa 安裝路徑建議作為Python開發環境的Sublime Text 3，有了Anaconda就會如虎添翼。Anaconda是目前最流行也是最有威力的Python代碼提示插件。工具/原料

python操作mysql③python操作mysql的orm工具sqlaichemy安裝配置和使用

utf pes 中文 pytho oot 工具 mage lean cred python操作mysql③python操作mysql的orm工具sqlaichemy安裝配置和使用手冊地址： http://docs.sqlalchemy.org/en/rel_1

CentOS7.2安裝配置nginx+flask+python+uwsgi運行環境

編程語言 Python 操作系統：CentOS 7.2Nginx安裝請參考centos7.2安裝nginx這個文章1. 安裝python3.5執行命令wget --no-check-certificate https://www.python.org/ftp/python/3.5.0/Python-3

大數據筆記（二十七）——Spark Core簡介及安裝配置

sin cli sca follow com clu 同時 graphx 信息 1、Spark Core：類似MapReduce 核心：RDD 2、Spark SQL：類似Hive，支持SQL 3、Spark Streaming：類似

Python版本OpenCV安裝配置及簡單實例

ima all bubuko 管理產品包管理工具 named () www # 2018-06-03 # 1. Python下載：https://www.python.org/downloads/ 選擇對應平臺對應版本的的Python進行安裝。 2. Pyt

Python 安裝與專屬 IDE_Pycharm 安裝配置、永久激活，贈漢化版！

機房發送交流沒有想到 HA QQ targe direct 方式這個為什麽說是一次學生時代的經歷呢，我的出發點並沒有是為了吊胃口。確實，這個Python小應用，只能在學生時代用得著吧，尤其是高中和大學，如果你沒有想到也沒關系，看完我下面說的就會明白了。對紅蜘

spark python安裝配置 (初學)

相關推薦