python本地開發spark

阿新 • • 發佈：2019-02-14

筆者最近專案有點雜，什麼都做，最近有涉及到spark的mllib上了。
本地沒有spark環境，但需要呼叫spark的api。費了一番周折，記錄下配置方法。

安裝py4j和pyspark

筆者安裝的是Anaconda2，帶有了全套的python環境。本地開發spark專案，還需要安裝py4j和pyspark的lib.

pip install py4j
pip install pyspark

下載spark

注意，只是下載spark而已，不需要安裝。
地址是：https://spark.apache.org/downloads.html
下載 spark-2.2.0-bin-hadoop2.6.tgz

解壓到 D:\software\spark-2.2.0-bin-hadoop2.6

配置環境變數

這一步比較重要。
主要的三個配置如下：

變數名：SPARK_HOME
變數值：D:\software\spark-2.2.0-bin-hadoop2.6

變數名：PYTHONPATH
變數值：%SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-0.10.4-src.zip

變數名：Path
變數值：%SPARK_HOME%\bin

新增hadoop和java的依賴

下載winutils.exe.將其放在資料夾D:\software\spark-2.2.0-bin-hadoop2.6\HADOOP_HOME\bin

下。
下載並安裝java。

測試程式碼

# encoding: utf-8
from pyspark import SparkContext
import os
import sys
os.environ['SPARK_HOME'] = "D:\\software\\spark-2.2.0-bin-hadoop2.6"
os.environ['JAVA_HOME'] = "D:\\java\\jdk1.8"
sys.path.append("D:\\software\\spark-2.2.0-bin-hadoop2.6\\python")
os.environ['HADOOP_HOME' 
] = "D:\\software\\spark-2.2.0-bin-hadoop2.6\\HADOOP_HOME"

sc = SparkContext("local", "Simple App")
from numpy import array
from pyspark.mllib.clustering import BisectingKMeans
data = array([0.0,0.0, 1.0,1.0, 9.0,8.0, 8.0,9.0]).reshape(4, 2)
bskm = BisectingKMeans()
model = bskm.train(sc.parallelize(data, 2), k=4)
p = array([0.0, 0.0])
print model.predict(p)
print model.k
print model.computeCost(p)

注意，在程式碼中添加了四個環境變數。
HADOOP_HOME指定winutils.exe所在的資料夾的上一級目錄（不含bin），否則會提示找不到winutils.exe。
上述程式碼能正常執行，說明配置無誤。

執行結果可能提示：
Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
表示無法使用原生hadoop環境，使用編譯好的java類，對測試無影響。

scala本地發開spark的配置環境和python相似。

python本地開發spark

筆者最近專案有點雜，什麼都做，最近有涉及到spark的mllib上了。本地沒有spark環境，但需要呼叫spark的api。費了一番周折，記錄下配置方法。安裝py4j和pyspark 筆者安裝的是Anaconda2，帶有了全套的python環境。本

IDEA 本地開發 Spark Streming 日誌輸出太多影響檢視輸出 INFO改為ERRO

在本地開發測試Spark Streaming 的時候日誌資訊輸出太多,不方便檢視資料流的輸出方法一 val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCo

本地開發Spark，執行JavaSparkPi例子報錯：A master URL must be set in your configuration

錯誤資訊： Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 18/08/21 18:39:27 INFO SparkContext: Running Spark versi

本地開發spark streaming無法消費雲主機kafka訊息

1、Kafka叢集在一個192.168.0.x網段的，而我們的生產者在叢集外，無法將訊息傳送過去錯誤：11:21:13,936 ERROR KafkaProducer - Batch containing 11 record(s) expired due to timeout while re

spark2.x由淺入深深到底系列五之python開發spark環境配置

spark 大數據 rdd 開發環境 python 學習spark任何的技術前，請先正確理解spark，可以參考: 正確理解spark以下是在mac操作系統上配置用python開發spark的環境一、安裝pythonspark2.2.0需要python的版本是Python2.6+ 或者 P

跟我一起學Spark之——Windows10下spark2.3.0本地開發環境搭建-親測

相關元件版本： JDK1.8.0_171，hadoop-2.7.6，Spark-2.3.0，Scala-2.11.8，Maven-3.5.3，ideaIC-2018.1.4.exe，spark-2.3.0-bin-hadoop2.7 1.1 JDK1.8.0_171 a.&n

Spark本地開發環境搭建與遠端debug設定

快速看完《Spark大資料處理技術、應用與效能優化》前四章後，對Spark有了一個初步的瞭解，終於踏出了第一步，現在需要在Spark叢集中做些測試例子，熟悉一下開發環境和開發的流程。本文主要總結了如何在本地使用Maven搭建開發環境以及如何進行遠端debug。由於採用的Spark是

Spark本地開發環境配置(windows/Intellij IDEA 篇)

前言 Intellij IDEA是一個蠻不錯的IDE，在java/scala領域深得人心。筆者之前使用的是Eclipse那一套開發環境，雖然也不錯，但忍不住好奇心的驅使，折騰了一下IDEA，將自己摸索過程總結一下，方便Spark愛好者參考。 1.配置前提 J

利用Python在本地開發Neo智慧合約！

在本教程中，我們將使用 neo-local 專案為本地開發和測試Neo智慧合約設定私有鏈。使用私有鏈可以使我們能夠完全控制我們的環境，使我們能夠獨立工作而不用與外部測試網路打交道。為了更好地理解文件的內容，你需要使用類Unix的終端和某種文字編輯器。本文我將在虛擬機

Windows本地搭建Spark開發環境

作者：翁鬆秀 Windows系統下搭建Spark開發環境三步曲，簡單粗暴，走你┏ (゜ω゜)=☞ [TOC] Step1：安裝Spark 到官網http://spark.apache.org/downloads.html選擇相應版本，下載安裝包。我這裡下的是2.1.3

Spark Java版 windows本地開發環境

安裝IntelliJ IDEA 選擇Community版本安裝安裝好後啟動,我這裡選擇UI主題預設Plugins. 安裝scala外掛. 配置hadoop環境變

Python開發Spark應用之Wordcount詞頻統計

待我學有所成，結髮與蕊可好。@夏瑾墨一個早上只做了一點微小的工作，很懺愧。但是發現Spark這玩意還是蠻有意思的。下面給大家介紹一下如何用python跑一遍Wordcount的詞頻統計的示例程式。 #在pyspark模組中引入SparkCont

Windows下Spark python 單機開發環境

Spark提供的pyspark可以像scala shell一樣提供互動式的開發，本文介紹在windows下單機環境下的pyspark配置，當然資料量小，任務簡單，條件有限的可以在單機上這樣做示例，資料量大任務重的還是配置linux叢集環境。 1.官網下載好

Spark SQL 本地開發環境搭建和案例分析

1_Spark APIs 的演變 Spark SQL，作為Apache Spark大資料框架的一部分，主要用於結構化資料處理和對Spark資料執行類SQL的查詢。通過Spark SQL，可以實現多種大針資料業務，比如對PG/TG級別的資料分析、分析預測並推薦、

Spark本地開發與遠端除錯環境搭建

先決條件遠端除錯環境搭建過程詳述開啟Intellij IDEA，File->New ->Project 選擇Scala，然後next 配置好JDK、Scala版本，填入專案名稱，然後Finish 4.匯入spark-assembly-1.5.0

Python自動化開發課堂筆記【Day03】 - Python基礎(字符編碼使用，文件處理，函數)

賦值創建解釋器使用重復 closed 操作邏輯默認字符編碼使用 1. 文本編輯器如何存取文件文本編輯器相當一個運行在內存中的進程，所以文件內容在編輯未存儲時都是在內存中的，尚未存儲在硬盤之中，在沒有保存之前，所編輯的任何文本都只是一堆字符，沒有任何邏輯上的意

Python自動化開發-day01-Python開發基礎2-元組、字典、文件操作

文件 list pri 循環 pop 修改寫入 replace pda 學習內容： 1. 元組操作 2. 字典操作 3. 文件操作 4. 深淺copy 1. 元組操作：元組和列表非常相似，只不過元組不能在原處修改（它是不可變的），並且通常寫成圓括號中的一系列項。

Python自動化開發課堂筆記【Day06】 - Python進階（類）

擴展性程序 lex 類名人物優點 ini 參數 self. 類與對象面向過程的程序設計：　　優點：極大的降低了程序的復雜度　　缺點：一套流水線或者流程就是用來解決一個問題，生產汽水的流水線無法生產汽車，即使能，也是得大改，改一個組件，牽一發而動全身面向對象的程序設計

python自動化開發-[第八天]-面向對象高級篇與網絡編程

屬性字典 del log 工作新增 subclass Coding ror play 今日概要：　　一、面向對象進階　　　　1、isinstance(obj,cls)和issubclass(sub,super) 　　　　2、__setattr__，__getattr_

Python自動化開發課堂筆記【Day08】 - Python進階（面向對象的高級用法，網絡編程）

sta 自然 log 報錯面向 read urn total 析構函數面向對象的高級用法 1. __str__ 只要執行打印對象的操作，就會觸發該對象類中的__str__方法（也就是對象的綁定方法）它是一種默認的方法，默認的打印輸出為<__main__.Foo o

python本地開發spark

安裝py4j和pyspark

下載spark

配置環境變數

新增hadoop和java的依賴

測試程式碼

相關推薦