Hadoop+spark+jupyter環境搭建（三）：Pyspark+jupyter部署在Linux

阿新 • • 發佈：2019-01-11

Hadoop+spark+jupyter環境搭建順序請參照：

我們已經實現了Spark on Yarn的搭建，但我們還希望有一個友好的開發介面，也便於展示成果，因此我們選擇了jupyter。他的本質就是一個 web app，也支援多種語言，完全滿足我們的要求。

1.安裝python3

下載包

wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0a1.tar.xz

(自己根據需要選擇python版本)

拷貝到想要安裝的目錄，沒有的話就自己建立一個

cp Python-3.6.0a1.tar.xz /usr/lib/python

解壓並刪除安裝包

tar xvf  Python-3.6.0a1.tar.xz
rm –rf Python-3.6.0a1.tar.xz

編譯安裝，進入目錄./configure

make && make install

(沒有make包的話就先安裝make包)

測試一下，檢視版本

python3 –version

由於我們只使用python3，可以切換一下系統預設的python版本，輸入

sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100
sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 150

（這裡也可以使用一些更加方便的python包管理器，如pythonbrew，我們這裡就儘量簡化了）

此後使用python和pip就可以了，不必python3 pip3

2.jupyter的安裝使用以及遠端連線

安裝

pip install jupyter

輸入

ipython

進入shell，按如下內容進行輸入

In [1]: from IPython.lib import passwd
In [2]: passwd()
Enter password: #設定遠端登陸時的密碼，自由發揮
Verify password: #確認密碼
Out[2]: 'sha1:0e422dfccef2:84cfbcbb3ef95872fb8e23be3999c123f862d856'#會為你生成一個SHA金鑰，複製下來備用，儲存好金鑰後quit即可

生成mycert.pem，輸入

openssl req -x509 -nodes -days 365 -newkey rsa:1024 -keyout mycert.pem -out mycert.pem

接下來，會要求你輸入一系列的個人資訊，如國家，省份，單位，個人姓名等等，自由發揮，不影響功能。一般來說mycert.pem會生成在當前目錄下，可以把他拷貝到更便於管理的資料夾，記好這個路徑。

建立一個新的伺服器配置

ipython profile create myserver #最後一個引數為伺服器的名字，自由發揮

編輯檔案jupyter_notebook_config.py，建立伺服器配置的時候控制檯會輸出該檔案的位置資訊，一般來說是~/.jupyter/myserver/jupyter_notebook_config.py，進入該資料夾，開啟jupyter_notebook_config.py，按下面內容進行配置

c.NotebookApp.password = u'sha1:' #此處填寫剛剛生成的SHA金鑰
c.NotebookApp.certfile = u'/root/.jupyter/mycert.pem' #此處填寫mycert.pem檔案位置
c.NotebookApp.ip = '*' #此處填寫ip，本機ip就好，由於我們之前綁定了主機名，所以此處也可直接填主機名，如myz-master
c.NotebookApp.port = 9999 #埠，自由發揮就好，注意端口占用情況

配置完成，啟動伺服器，可能需要切換成root使用者

jupyter notebook --ip=myz-master --no-browser --allow-root

--ip=myz-master設定ip

--no-browser不要開啟瀏覽器，因為我們要遠端訪問

--allow-root可以在root下啟動

啟動成功我們就可以從本地開啟瀏覽器，進入到https://你的ip: 你的port/，輸入剛才我們設定的登陸密碼，就可以進入到jupyter的home介面了

3. Jupyter連線pyspark，實現web端spark開發

按照下面內容新增環境變數/etc/profile

#py-spark
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH #pythonpath指向spark目錄下的python資料夾
export PYTHONPATH=$SPARK_HOME/python/dist/py4j-0.10.6.zip:$PYTHONPATH# 指向py4j包，沒有的話下載一個就可以了
export PYSPARK_PYTHON=python3 #使用python3
export PYSPARK_DRIVER_PYTHON=jupyter 
export PYSPARK_DRIVER_PYTHON_OPTS="notebook --ip=myz-master --no-browser --allow-root" #最後兩個變數參照剛才開啟jupyter時命令裡的引數配置就可以

讓環境變數生效

source /etc/profile

進入到SPARK_HOME/bin，啟動

./pyspark

再通過本地瀏覽器遠端登陸jupyter就可以了。

Hadoop+spark+jupyter環境搭建（三）：Pyspark+jupyter部署在Linux

Hadoop+spark+jupyter環境搭建順序請參照：我們已經實現了Spark on Yarn的搭建，但我們還希望有一個友好的開發介面，也便於展示成果，因此我們選擇了jupyter。他的本質就是一個 web app，也支援多種語言，完全滿足我們的要求。1.安裝

Maven專案搭建（三）：Maven直接部署專案

上一章給大家講解了如何使用Maven搭建SSM框架專案。這次給大家介紹一下怎麼使用Maven直接部署專案。 Maven直接部署專案 1.新建系統變數CATALINA_HOME，值為：Tomcat路徑 2.在系統變數 Path的最後

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（三）安裝spark2.2.1

node word clas 執行選擇 dir clust 用戶名 uil 如何配置centos虛擬機請參考《Kafka：ZK+Kafka+Spark Streaming集群環境搭建（一）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。》如

基於Hadoop生態圈的資料倉庫實踐 —— 環境搭建（三）

三、建立資料倉庫示例模型 Hadoop及其相關服務安裝配置好後，下面用一個小而完整的示例說明多維模型及其相關ETL技術在Hadoop上的具體實現。1. 設計ERD 操作型系統是一個銷售訂單系統，初始時只有產品、客戶、訂單三個表，ERD如下圖所示。

大資料Hadoop叢集環境搭建（三）

在配置hadoop環境中一、修改Hostname 1. 臨時修改hostname [[email protected] localhost]# hostname hadoop 這種修改方式，系統重啟後就會失效。 2、永久修改hostname 想永久修改，應

Hadoop分散式叢集環境搭建（三節點）

一、安裝準備建立hadoop賬號更改ip 安裝Java 更改/etc/profile 配置環境變數 export $JAVA_HOME=/usr/java/jdk1.7.0_71 修改host檔案域名 172.16.133.149 hadoop101

Hadoop HA + HBase環境搭建（二）————HBase環境搭建

property hadoop zookeeper conf ado 文件 ice mes root HBase配置（只需要做一處修改）　　修改HBase的 hbase-site.xml 配置文件種的一項　 <property>

SpringMVC 學習十 SSM環境搭建（三）springMVC檔案配置 springMVC學習三註解開發環境搭建

SpringMVC檔案配置的詳細過程，可以檢視springMVC環境搭建的註解配置篇《springMVC學習三註解開發環境搭建》 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns:xsi="http://www.w3.org/2

react的環境搭建（三）

1 安裝react模組 2 編寫Hello 元件功能 3 完善index.js入口呼叫 4 執行打包命令 5 命令優化在package.json檔案中新增簡寫形式

Hadoop原始碼閱讀環境搭建（IDEA） Hadoop原始碼編譯環境搭建 IDEA配置maven中央庫

拿到一份Hadoop原始碼之後，經常關注的兩件事情就是 1、怎麼閱讀？涉及IDEA和Eclipse工程搭建。IDEA搭建，選擇原始碼，逐步匯入即可；Eclipse可以選擇後臺生成工程，也可以選擇IDE匯入。二者工程也可以互相匯入\到處。 2、怎麼構建？利用maven，生成安裝包。二者均需配置maven

RabbitMQ概念及環境搭建（三）RabbitMQ cluster

... -s set rem hang 執行 .net 中一可見測試環境：VMS00781 VMS00782 VMS00386 (centos5.8) 1.先在三臺機器上分別安裝RabbitMQ Server 2.讀取其中一個節點的cookie，並復制到其他節點（節點間

Linux開發環境搭建（三）

前言：使用SecureCRT 來連線虛擬機器是很常用的用法，也很有必要，我參考了下面這篇文章來進行配置，完全沒有問題，可正常配置成功使用。故將這篇文章轉載過來。轉：SecureCRT連線虛擬機器中的Linux系統(Ubuntu) 　　SecureCRT是一款支援SSH（SSH1和SS

Spark Streaming筆記整理（三）：DS的transformation與output操作

job watermark number 這樣的格式 current fix work eat DStream的各種transformation Transformation Meaning map(func) 對DStream中的各個元素進行func函數操作，然後

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能數據加載（json文件、jdbc）與保存（json、jdbc）測試代碼如下： package cn.xpleaf.bigdata.spark.scala.sql.p1

nodejs web應用伺服器搭建（三）：業務的實現+mongo的基礎使用

前言本章節主要是關注業務實現的，就是持久層資料的CURD操作，和業務處理。資料： mongoose 文件其他章節連結： nodejs web應用伺服器搭建（一）：跑起你的伺服器 nodejs web應用伺服器搭建（二）：express 框架說明（應用） nodej

瞎折騰之個人學習環境搭建（一）：安裝XenServer

背景介紹家裡只有一臺安裝WIN10的筆記本可供在下折騰，在下先安裝了個VMware® Workstation 12 Pro，計劃建立一臺虛擬機器安裝XenServer，再得用XenServer虛擬3臺Centos7，夠折騰的吧，其實如果僅虛擬Centos7，可以直接使用VMwar

React Native在window下的環境搭建（二）：建立新專案

React Native建立一個新專案： react-native init TestAndroidApp提示：你可以使用--version引數（注意是兩個槓）建立指定版本的專案。例如react-native init TestAndroidApp --version 0.44.3。注意版本號必須精確

Selenium終極自動化測試環境搭建（二）：Selenium+Eclipse+Python

前面舉例了Selenium+Eclipse+Junit+TestNG自動化測試環境的搭建，在前一篇的基礎上，下面再舉例Selenium+Eclipse+Python測試環境搭建。第一步：安裝Python 根據下面的地址，直接一鍵安裝，全部預設方式。安裝到C:\Python27，設定Python

cloudera search1.0.0環境搭建（1）：搭建solrcloud

本文基於Cloudera Manager5.0.0，所有服務基於CDH5.0.0 parcel安裝。 CM 安裝solr是非常方便的，在叢集上新增服務就行了，solrcloud需要zookeeper叢集的支援，所以新增solr服務之前，先新增zookeeper服務。在此不贅

我的spark學習之路（三）：利用spark做迴歸分析

spark的機器學習庫（MLlib）下有簡單的迴歸分析方法，今天只說最簡單的線性迴歸，spark提供有兩個迴歸分析庫（mllib和ml），我學習的時候在網上也查了不少資料，有一個奇怪的現象是網上關於spark迴歸分析的資料基本全是mllib，關於ml的基本沒見到

Hadoop+spark+jupyter環境搭建（三）：Pyspark+jupyter部署在Linux

相關推薦