在Windows中安裝PySpark環境

阿新 • • 發佈：2021-08-09

在Windows中安裝PySpark環境

安裝Python

可以選擇安裝官方版本的Python，或是Anaconda，對應的地址如下。

下載地址
Python：https://www.python.org/
Anaconda： https://www.anaconda.com/download/#windows
MiniConda：https://docs.conda.io/en/latest/miniconda.html

安裝Java執行環境

下載地址
線上安裝包： https://www.java.com/en/download/
離線安裝包：https://www.java.com/zh-CN/download/windows_offline.jsp

下載Spark和winutils工具

由於Hadoop開發是針對類Unix系統的，所以在Windows平臺中沒有原生的Hadoop安裝包，但可以通過winutils工具作為替代。

spark下載地址: http://spark.apache.org/downloads.html
winutils下載地址: https://github.com/steveloughran/winutils

解壓spark，將winutils拷貝到解壓目錄的bin目錄下，如下動態圖所示。

配置環境變數

新增環境變數 HADOOP_HOME
變數值是安裝Spark的目錄，如 E:\spark\spark-3.1.2-bin-hadoop2.7\
新增環境變數SPARK_HOME
變數值是安裝Spark的目錄，如 E:\spark\spark-3.1.2-bin-hadoop2.7\
將Spark安裝目錄新增環境變數中
將Spark安裝目錄bin資料夾新增到path變數中 E:\spark\spark-3.1.2-bin-hadoop2.7\bin

配置的過程如下動態圖所示。

使用spark-shell

安裝配置完畢後，對Spark Shell使用，以驗證成功的安裝。

開啟spark-shell2.cmd，輸入以下的scala命令。
開啟一個Power Shell，然後輸入命令：spark-shell2.cmd

scala> 1 + 1
scala> println("Hello World!")
var myVar : String = "hello"

操作如下動態圖所示。

使用pyspark-shell

開啟 pyspark2.cmd，輸入以下Python命令。
開啟一個Power Shell，然後輸入命令：pyspark2.cmd

from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row

df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.printSchema()

操作如下動態圖所示。

使用sparkR-shell

開啟 sparkR2.cmd，輸入以下R語言命令。
開啟一個Power Shell，然後輸入命令：sparkR2.cmd

emp.data <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 
   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11","2015-03-27")),
   stringsAsFactors = FALSE
)
df <- createDataFrame(emp.data)

操作如下動態圖所示。

在Windows中安裝PySpark環境

在Windows中安裝PySpark環境安裝Python 可以選擇安裝官方版本的Python，或是Anaconda，對應的地址如下。

windows中安裝Python3.8.0的實現方法

作業系統：Windows10 64bit Python版本：3.8.0 下載地址：https://www.python.org/downloads/release/python-380/，選擇下方的Windows x86-64 executable installer

在eclipse中安裝Scala環境的步驟詳解

1安裝eclipse外掛步驟，點選help，選擇Eclipse Marketplace 2.輸入Scala，點選go 3.選擇搜尋到的Scala IDE 4.7.x，點選install下載。

如何在Windows中安裝多個python直譯器

在windows10系統下安裝兩個不同版本的的python直譯器，在通常情況下編譯執行檔案都是沒問題的，但是載入或下載包的時候pip的使用就會出現問題，無法下載一直報錯

在windows中安裝使用redis的幾種方法

背景：在學習redis的時候，剛開始直接用遠端伺服器安裝redis，然後開放防火牆埠來讓外部連線，為了方便沒有設密碼，也沒有及時關閉埠，結果很快就被注入攻擊用來挖礦了。redis配置檔案中的註釋也有說：因為redis執行

Hbase在windows中安裝啟動

一、準備資料：預設JDK已安裝並配置好環境變數，本處用的jdk1.8.0_121。 1、下載HBase

Git在Windows中安裝與使用教程

Git 程式碼管理工具，類似 SVN 客戶端。安裝步驟： 1、官網下載Git：https://gitforwindows.org/

安裝 node_在centos系統中安裝node環境

技術標籤：安裝 node 下載 wget https://npm.taobao.org/mirrors/node/v12.16.2/node-v12.16.2-linux-x64.tar.xz

Windows 中安裝zip歸檔版 MySQL

技術標籤：MySQL/NoSQL 環境：作業系統： Windows7 sp1 旗艦版 64位 MySQL包：mysql-5.5.62-winx64.zip

jdk-8u281-windows-x64安裝與環境配置

JDK安裝步驟 1、下載官網：https://www.oracle.com/java/technologies/javase-downloads.html 百度網盤（jdk-8u281-windows-x64）：連結：https://pan.baidu.com/s/1wyJOwgXuejUssRBN3XkVgg，提取碼：d39j