基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

阿新 • • 發佈：2021-10-13

一、概念介紹：

1、Sparkmagic：它是一個在Jupyter Notebook中的通過Livy伺服器 Spark REST與遠端Spark群集互動工作工具。Sparkmagic專案包括一組以多種語言互動執行Spark程式碼的框架和一些核心，可以使用這些核心將Jupyter Notebook中的程式碼轉換在Spark環境執行。

2、Livy：它是一個基於Spark的開源REST服務，它能夠通過REST的方式將程式碼片段或是序列化的二進位制程式碼提交到Spark叢集中去執行。它提供了以下這些基本功能：提交Scala、或是R程式碼片段到遠端的Spark叢集上執行，提交、Scala、Python所編寫的Spark作業到遠端的Spark叢集上執行和提交批處理應用在叢集中執行

二、基本框架

為下圖所示：

基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

三、準備工作：

具備提供Saprk叢集，自己可以搭建或者直接使用華為雲上服務，如MRS，並且在叢集上安裝Spark客戶端。同節點（可以是容器或者虛擬機器）安裝Jupyter Notebook和Livy，安裝包的路徑為：https://livy.incubator.apache.org/download/

四、配置並啟動Livy：

修改livy.conf參考：https://enterprise-docs.awww.cppcns.comnaconda.com/en/latest/admin/advanced/config-livy-server.html

新增如下配置：

livy.spark.master = yarn
livy.spark.deploy-mode = cluster
livy.impersonation.enabled = false
livy.server.csrf-protection.enabled = false
livy.server.launch.kerberos.keytab=/www.cppcns.com 
opt/workspace/keytabs/user.keytab
livy.server.launch.kerberos.principal=miner
livy.superusers=miner

修改livy-env.sh,配置SPARK_HOME、HADOOP_CONF_DIR等環境變數

export JAVA_HOME=/opt/Bigdata/client/JDK/jdk
export HADOOP_CONF_DIR=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop
export SPARK_HOME=/opt/Bigdata/client/Spark2x/spark
export SPARK_CONF_DIR=/opt/Bigdata/client/Spark2x/spark/conf
export LIVY_LOG_DIR=/opt/workspace/apachUEvavcQC 
e-livy-0.7.0-incubating-bin/logs
export LIVY_PID_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/pids
export LIVY_SERVER_JAVA_OPTS="-Djava.security.krb5.conf=/opt/Bigdata/client/KrbClient/kerberos/var/krb5kdc/krb5.conf -Dzookeeper.server.principal=zookeeper/hadoop.hadoop.com -Djava.security.auth.login.config=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop/jaas.conf -Xmx128m"

啟動Livy：

./bin/livy-server start

五、安裝Jupyter Notebook和sparkmagic

Jupyter Notebook是一個開源並且使用很廣泛專案，安裝流程不在此贅述

sparkmagic可以理解為在Jupyter Notebook中的一種kernel，直接pip install sparkmagic。注意安裝前系統必須具備gcc python-dev libkrb5-dev工具，如果沒有，apt-get install或者yum install安裝。安裝完以後會生成$HOME/.sparkmagic/config.on檔案，此檔案為sparkmagic的關鍵配置檔案，相容spark的配置。關鍵配置如圖所示

基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

其中url為Livy服務的ip和埠，支援http和https兩種協議

六、新增sparkmagic kernel

PYTHON3_KERNEL_DIR="$(jupyter kernelspec list | grep -w "python3" | awk '{print $2}')"
KERNELS_FOLDER="$(dirname "${PYTHON3_KERNEL_DIR}客棧")"
SITE_PACKAGES="$(pip show sparkmagic|grep -w "Location" | awk '{print $2}')"
cp -r ${SITE_PACKAGES}/sparkmagic/kernels/pysparkkernel ${KERNELS_FOLDER}

七、在Jupyter Notebook中執行spark程式碼驗證：

基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

八、訪問Livy檢視當前session日誌：

基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

到此這篇關於基於Jupyter notebook搭建Spark叢集開發環境的詳細過程的文章就介紹到這了,更多相關基於Jupyter notebook搭建Spark叢集開發環境內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

一、概念介紹：

二、基本框架

三、準備工作：

四、配置並啟動Livy：

五、安裝Jupyter Notebook和sparkmagic

六、新增sparkmagic kernel

七、在Jupyter Notebook中執行spark程式碼驗證：

八、訪問Livy檢視當前session日誌：

基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

阿里雲ECS7天訓練營——05基於ECS搭建Java Web開發環境

ECS7天實踐進階訓練營Day6：基於Tomcat在阿里雲ECS上搭建Java Web開發環境

Class 5 基於ECS搭建Java Web開發環境

Window下基於vue cli4 建立一個vue專案 Window下搭建Vue cli開發環境

Spark詳解(04) - Spark專案開發環境搭建

在Python中畫圖(基於Jupyter notebook的魔法函式)

使用webpack搭建pixi.js開發環境

Jupyter notebook執行Spark+Scala教程

Windows系統VSCode、VBox搭建C/C++開發環境

Ubuntu 搭建GO語言開發環境

搭建java web開發環境

搭建React Native開發環境遇到的各種坑

搭建 Erlang + VScode 開發環境

《搭建Java Web開發環境》教程

搭建PhpStorm+PhpStudy開發環境的超詳細教程

windows環境下搭建python+nltk開發環境

阿里雲伺服器 Centos 7 搭建Java Web開發環境全過程

Python學習之（一）在eclipse中搭建python的開發環境

乾貨分享：在Windows下使用Visual Studio搭建C語言開發環境

基於Jupyter notebook搭建Spark叢集開發環境的詳細過程

一、概念介紹：

二、基本框架

三、準備工作：

四、配置並啟動Livy：

五、安裝Jupyter Notebook和sparkmagic

六、新增sparkmagic kernel

七、在Jupyter Notebook中執行spark程式碼驗證：

八、訪問Livy檢視當前session日誌：

相關推薦