1. Spark的安裝及介紹

阿新 • • 發佈：2020-09-21

*以下內容由《Spark快速大資料分析》整理所得。

讀書筆記的第一部分是記錄如何安裝Spark？同時，簡單介紹下Spark。

一、Spark安裝

二、Spark介紹

一、Spark安裝

如果是在個人電腦上學習Spark，建議先建個虛擬機器，教程可參考1. 安裝虛擬機器，Hadoop和Hive。

在下載Spark之前得確認之前安裝的Hadoop版本是什麼？

# 檢視hadoop版本(這裡我是2.7.7)
hadoop version

然後，去官網下載相容現有hadoop版本的spark並解壓安裝包：

cd~
tar -xf spark-3.0.0-bin-hadoop2.7.tgz
cd spark 
-3.0.0-bin-hadoop2.7
ls

現在，安裝好了就可以試執行下Python或Scala版本的Spark shell了：

# 開啟Python版本的Spark shell
cd spark-3.0.0-bin-hadoop2.7
bin/pyspark

# 開啟Scala版本的Spark setshell
bin/spark-shell

二、Spark介紹

“Spark是一個用來實現快速而通用的叢集計算的平臺。”，它一個主要特點是能夠在記憶體中進行計算，因而更快。

1. Spark的核心元件有兩個：驅動器程式(driver program)和執行器(executor)。

驅動器程式：shell啟動時已自動建立一個SparkContext物件(也稱sc變數)去訪問Spark。有了SparkContext，就可以用它建立RDD(彈性分散式資料集resilient distributed dataset，不能看作是存放著特定資料的資料集，而是看作如何計算資料的指令列表)。

執行器：驅動器程式一般要管理多個執行器節點，不同節點會執行不同的工作，在叢集上實現並行資料分析。

例如Python的行數統計
$bin/pyspark
>>>lines = sc.textFile("README.md") # 使用sc建立一個名為lines的RDD
>>>lines.count() # 執行器統計RDD中元素的個數
108

2. 執行Python指令碼：使用Spark自帶的bin/spark-submit指令碼幫我們引入Python程式的Spark依賴（相當於為Spark的PythonAPI配置好的執行環境）

bin/spark-submit my_python_script.py

3. 在python中初始化Spark:

from pyspark import SparkConf, SparkContext

# 建立一個SparkConf物件來配置你的應用
conf = SparkConf().setMaster("local").setAppName("My App")

# 基於這個SparkConf建立一個SparkContext物件
sc = SparkContext(conf = conf)

1. Spark的安裝及介紹

*以下內容由《Spark快速大資料分析》整理所得。讀書筆記的第一部分是記錄如何安裝Spark？同時，簡單介紹下Spark。

Win10下最新版CLion(2020.1.3)安裝及環境配置教程詳解

前言 CLion 是 JetBrains 推出的全新的 C/C++ 跨平臺整合開發環境。沒想到，我竟然又安裝了CLion !!!∑(ﾟДﾟノ)ノ，不過說實話，JetBrains家的IDE除了吃記憶體外，確實好用，無論是PyC

Elasticsearch系列(1)：安裝與介紹

簡介 Elasticsearch是一個基於Lucene構建的開源搜尋引擎，簡稱ES。它是使用Java語言開發的，並提供了簡單易用的RestFul API，是一種流行的企業級搜尋引擎。

deepmid & openai 開源 mujoco2.1.0 安裝及mujoco_py安裝

下載和安裝下載mujoco mujoco官網：https://mujoco.org/，直接下載壓縮包將壓縮包裡的mujoco210資料夾複製到 ~/.mujoco/mujoco210目錄，沒有的話就新建該目錄

二進位制部署1.23.4版本k8s叢集-1-系統安裝及環境準備

1. 致謝這篇文章參考了老男孩王導的視訊，在此表示感謝和致敬！ 2. 安裝CentOS作業系統

Spark記憶體模型介紹及Spark應用記憶體優化踩坑記錄

Spark作為一個基於記憶體的分散式計算引擎，其記憶體管理模組在整個系統中扮演著非常重要的角色。理解Spark記憶體管理的基本原理，有助於更好的開發Spark應用程式和進行效能調優。同時，有效率的記憶體使用是Spark應

Influx Sql系列教程零：安裝及influx-cli使用姿勢介紹

influxdb 時序資料庫，因為實際業務中使用到了，然而並沒有發現有特別好的文章，完整的介紹influx sql的使用姿勢，因此記錄下實際開發中學習的體會，主要參考來自於官方檔案 Influx Query Language (InfluxQL)

Linux Solr5.1安裝及匯入Oracle資料庫表資料

一、Solr5.1安裝 1、官方下載連結：點此下載 2、下載上傳壓縮包到Linux伺服器 [root@hadoop ~]# mkdir -p /hadoop/solr

java大資料最全課程學習筆記(1)--Hadoop簡介和安裝及偽分散式

Hadoop簡介和安裝及偽分散式大資料概念大資料概論大資料(Big Data): 指無法在一定時間範圍內用常規軟體工具進行捕捉,管理和處理的資料集合,是需要新處理模式才能具有更強的決策力,洞察發現力和流程優化能力的海量

Goreplay開源工具的介紹，安裝及使用 (Linux)

Goreplay 介紹 GoReplay是一個開源的網路監控工具，它可以記錄你的實時流量，並用於跟蹤、負載測試、監控和詳細分析。

Electron – 基礎學習(1): 環境安裝、建立專案及入門

這幾天到年底了，公司也沒啥事，閒著就到處瞅瞅。記得上一家公司的時候用 Electron+ng1 寫過專案，只是那個時候專案框架都是別人搭的，自己只負責寫功能，對Electron沒啥認識。這幾天想著反正閒著也是閒著，就撿起來

zabbix(1)--伺服器端安裝及配置

1、zabbix-server配置zabbix版本選擇LTS的3.0版本、server端OS版本為RHEL 6.5配置zabbix倉庫，進行yum安裝zabbix~]#cd/etc/yum.repos.d/

製作自己的Winpe映象（1）：Windows ADK安裝及初始PE生成

說明：本筆記是學習李老師的課程及最近幾天工作及個人研究學習做的簡易記錄課程地址：http://edu.51cto.com/course/course_id-378.html

XAMPP介紹、安裝及使用

XAMPP介紹、安裝及使用小白第一次聽說，彙總各總資料介紹下 XAMPP介紹 XAMPP(X-系統，A-Apache，M-Mysql，P-php，P-Phpmyadmin/Perl)，說明包含的檔案：Apache web 伺服器, MySQL資料庫, PHP, Perl, FTP

Anaconda介紹、安裝及使用教程

〇、序 Python是一種面向物件的解釋型計算機程式設計語言，其使用，具有跨平臺的特點，可以在Linux、macOS以及Windows系統中搭建環境並使用，其編寫的程式碼在不同平臺上執行時，幾乎不需要做較大的改動，使用者無

python安裝及變數名介紹詳解

python基礎部分學習一，python介紹 python的創始人為吉多·範羅蘇姆（Guido van Rossum）。1989年的聖誕節期間，Guido開始寫能夠解釋Python語言語法的直譯器。Python這個名字，來自Guido所摯愛的電視劇Monty Python

seata-1.4.0安裝及在springcloud中使用詳解

seata-1.4.0安裝及使用 1、簡介 Seata 是一款開源的分散式事務解決方案，致力於提供高效能和簡單易用的分散式事務服務。Seata 將為使用者提供了 AT、TCC、SAGA 和 XA 事務模式，為使用者打造一站式的分散式解決方案。

tomcat（1）- tomcat服務介紹與安裝

目錄1. Tomcat介紹2. Tomcat安裝2.1 JDK安裝2.2 Tomcat安裝3. Tomcat開啟預設的管理頁面

1.5 sqoop安裝及基本使用

一、安裝sqoop 1、解壓 ##解壓 [root@hadoop-senior cdh]# tar zxf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/

Docker叢集編排工具之Kubernetes（K8s）介紹、安裝及使用

Docker叢集編排工具之Kubernetes（K8s）介紹、安裝及使用目錄 K8s基礎原理簡介 K8s特性

1. Spark的安裝及介紹

相關推薦