Hadoop+spark+jupyter環境搭建(三):Pyspark+jupyter部署在Linux
Hadoop+spark+jupyter環境搭建順序請參照:
我們已經實現了Spark on Yarn的搭建,但我們還希望有一個友好的開發介面,也便於展示成果,因此我們選擇了jupyter。他的本質就是一個 web app,也支援多種語言,完全滿足我們的要求。
1.安裝python3
下載包
wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0a1.tar.xz
(自己根據需要選擇python版本)
拷貝到想要安裝的目錄,沒有的話就自己建立一個
cp Python-3.6.0a1.tar.xz /usr/lib/python
解壓並刪除安裝包
tar xvf Python-3.6.0a1.tar.xz rm –rf Python-3.6.0a1.tar.xz
編譯安裝,進入目錄./configure
make && make install
(沒有make包的話就先安裝make包)
測試一下,檢視版本
python3 –version
由於我們只使用python3,可以切換一下系統預設的python版本,輸入
sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100
sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 150
(這裡也可以使用一些更加方便的python包管理器,如pythonbrew,我們這裡就儘量簡化了)
此後使用python和pip就可以了,不必python3 pip3
2.jupyter的安裝使用以及遠端連線
安裝
pip install jupyter
輸入
ipython
進入shell,按如下內容進行輸入
In [1]: from IPython.lib import passwd In [2]: passwd() Enter password: #設定遠端登陸時的密碼,自由發揮 Verify password: #確認密碼 Out[2]: 'sha1:0e422dfccef2:84cfbcbb3ef95872fb8e23be3999c123f862d856'#會為你生成一個SHA金鑰,複製下來備用,儲存好金鑰後quit即可
生成mycert.pem,輸入
openssl req -x509 -nodes -days 365 -newkey rsa:1024 -keyout mycert.pem -out mycert.pem
接下來,會要求你輸入一系列的個人資訊,如國家,省份,單位,個人姓名等等,自由發揮,不影響功能。一般來說mycert.pem會生成在當前目錄下,可以把他拷貝到更便於管理的資料夾,記好這個路徑。
建立一個新的伺服器配置
ipython profile create myserver #最後一個引數為伺服器的名字,自由發揮
編輯檔案jupyter_notebook_config.py,建立伺服器配置的時候控制檯會輸出該檔案的位置資訊,一般來說是~/.jupyter/myserver/jupyter_notebook_config.py,進入該資料夾,開啟jupyter_notebook_config.py,按下面內容進行配置
c.NotebookApp.password = u'sha1:' #此處填寫剛剛生成的SHA金鑰
c.NotebookApp.certfile = u'/root/.jupyter/mycert.pem' #此處填寫mycert.pem檔案位置
c.NotebookApp.ip = '*' #此處填寫ip,本機ip就好,由於我們之前綁定了主機名,所以此處也可直接填主機名,如myz-master
c.NotebookApp.port = 9999 #埠,自由發揮就好,注意端口占用情況
配置完成,啟動伺服器,可能需要切換成root使用者
jupyter notebook --ip=myz-master --no-browser --allow-root
--ip=myz-master設定ip
--no-browser不要開啟瀏覽器,因為我們要遠端訪問
--allow-root可以在root下啟動
啟動成功我們就可以從本地開啟瀏覽器,進入到https://你的ip: 你的port/,輸入剛才我們設定的登陸密碼,就可以進入到jupyter的home介面了
3. Jupyter連線pyspark,實現web端spark開發
按照下面內容新增環境變數/etc/profile
#py-spark
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH #pythonpath指向spark目錄下的python資料夾
export PYTHONPATH=$SPARK_HOME/python/dist/py4j-0.10.6.zip:$PYTHONPATH# 指向py4j包,沒有的話下載一個就可以了
export PYSPARK_PYTHON=python3 #使用python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook --ip=myz-master --no-browser --allow-root" #最後兩個變數參照剛才開啟jupyter時命令裡的引數配置就可以
讓環境變數生效
source /etc/profile
進入到SPARK_HOME/bin,啟動
./pyspark
再通過本地瀏覽器遠端登陸jupyter就可以了。
相關推薦
Hadoop+spark+jupyter環境搭建(三):Pyspark+jupyter部署在Linux
Hadoop+spark+jupyter環境搭建順序請參照: 我們已經實現了Spark on Yarn的搭建,但我們還希望有一個友好的開發介面,也便於展示成果,因此我們選擇了jupyter。他的本質就是一個 web app,也支援多種語言,完全滿足我們的要求。1.安裝
Maven專案搭建(三):Maven直接部署專案
上一章給大家講解了如何使用Maven搭建SSM框架專案。 這次給大家介紹一下怎麼使用Maven直接部署專案。 Maven直接部署專案 1.新建系統變數CATALINA_HOME,值為:Tomcat路徑 2.在系統變數 Path的最後
Kafka:ZK+Kafka+Spark Streaming集群環境搭建(三)安裝spark2.2.1
node word clas 執行 選擇 dir clust 用戶名 uil 如何配置centos虛擬機請參考《Kafka:ZK+Kafka+Spark Streaming集群環境搭建(一)VMW安裝四臺CentOS,並實現本機與它們能交互,虛擬機內部實現可以上網。》 如
基於Hadoop生態圈的資料倉庫實踐 —— 環境搭建(三)
三、建立資料倉庫示例模型 Hadoop及其相關服務安裝配置好後,下面用一個小而完整的示例說明多維模型及其相關ETL技術在Hadoop上的具體實現。1. 設計ERD 操作型系統是一個銷售訂單系統,初始時只有產品、客戶、訂單三個表,ERD如下圖所示。
大資料Hadoop叢集環境搭建(三)
在配置hadoop環境中 一、修改Hostname 1. 臨時修改hostname [[email protected] localhost]# hostname hadoop 這種修改方式,系統重啟後就會失效。 2、 永久修改hostname 想永久修改,應
Hadoop分散式叢集環境搭建(三節點)
一、安裝準備 建立hadoop賬號 更改ip 安裝Java 更改/etc/profile 配置環境變數 export $JAVA_HOME=/usr/java/jdk1.7.0_71 修改host檔案域名 172.16.133.149 hadoop101
Hadoop HA + HBase環境搭建(二)————HBase環境搭建
property hadoop zookeeper conf ado 文件 ice mes root HBase配置(只需要做一處修改) 修改HBase的 hbase-site.xml 配置文件種的一項 <property>
SpringMVC 學習 十 SSM環境搭建(三)springMVC檔案配置 springMVC學習三 註解開發環境搭建
SpringMVC檔案配置的詳細過程,可以檢視springMVC環境搭建的註解配置篇《springMVC學習三 註解開發環境搭建》 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns:xsi="http://www.w3.org/2
react的環境搭建(三)
1 安裝react模組 2 編寫Hello 元件功能 3 完善index.js入口呼叫 4 執行打包命令 5 命令優化 在package.json檔案中新增簡寫形式
Hadoop原始碼閱讀環境搭建(IDEA) Hadoop原始碼編譯環境搭建 IDEA配置maven中央庫
拿到一份Hadoop原始碼之後,經常關注的兩件事情就是 1、怎麼閱讀?涉及IDEA和Eclipse工程搭建。IDEA搭建,選擇原始碼,逐步匯入即可;Eclipse可以選擇後臺生成工程,也可以選擇IDE匯入。二者工程也可以互相匯入\到處。 2、怎麼構建?利用maven,生成安裝包。 二者均需配置maven
RabbitMQ概念及環境搭建(三)RabbitMQ cluster
... -s set rem hang 執行 .net 中一 可見 測試環境:VMS00781 VMS00782 VMS00386 (centos5.8) 1.先在三臺機器上分別安裝RabbitMQ Server 2.讀取其中一個節點的cookie,並復制到其他節點(節點間
Linux開發環境搭建(三)
前言:使用SecureCRT 來連線虛擬機器是很常用的用法,也很有必要,我參考了下面這篇文章來進行配置,完全沒有問題,可正常配置成功使用。故將這篇文章轉載過來。 轉:SecureCRT連線虛擬機器中的Linux系統(Ubuntu) SecureCRT是一款支援SSH(SSH1和SS
Spark Streaming筆記整理(三):DS的transformation與output操作
job watermark number 這樣的 格式 current fix work eat DStream的各種transformation Transformation Meaning map(func) 對DStream中的各個元素進行func函數操作,然後
Spark SQL筆記整理(三):加載保存功能與Spark SQL函數
code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能 數據加載(json文件、jdbc)與保存(json、jdbc) 測試代碼如下: package cn.xpleaf.bigdata.spark.scala.sql.p1
nodejs web應用伺服器搭建(三):業務的實現+mongo的基礎使用
前言 本章節主要是關注業務實現的,就是持久層資料的CURD操作,和業務處理。 資料: mongoose 文件 其他章節連結: nodejs web應用伺服器搭建(一):跑起你的伺服器 nodejs web應用伺服器搭建(二):express 框架說明(應用) nodej
瞎折騰之個人學習環境搭建(一):安裝XenServer
背景介紹 家裡只有一臺安裝WIN10的筆記本可供在下折騰,在下先安裝了個VMware® Workstation 12 Pro,計劃建立一臺虛擬機器安裝XenServer,再得用XenServer虛擬3臺Centos7,夠折騰的吧,其實如果僅虛擬Centos7,可以直接使用VMwar
React Native在window下的環境搭建(二):建立新專案
React Native建立一個新專案: react-native init TestAndroidApp提示:你可以使用--version引數(注意是兩個槓)建立指定版本的專案。例如react-native init TestAndroidApp --version 0.44.3。注意版本號必須精確
Selenium終極自動化測試環境搭建(二):Selenium+Eclipse+Python
前面舉例了Selenium+Eclipse+Junit+TestNG自動化測試環境的搭建,在前一篇的基礎上,下面再舉例Selenium+Eclipse+Python測試環境搭建。 第一步:安裝Python 根據下面的地址,直接一鍵安裝,全部預設方式。 安裝到C:\Python27,設定Python
cloudera search1.0.0環境搭建(1):搭建solrcloud
本文基於Cloudera Manager5.0.0,所有服務基於CDH5.0.0 parcel安裝。 CM 安裝solr是非常方便的,在叢集上新增服務就行了,solrcloud需要zookeeper叢集的支援,所以新增solr服務之前,先新增zookeeper服務。在此不贅
我的spark學習之路(三):利用spark做迴歸分析
spark的機器學習庫(MLlib)下有簡單的迴歸分析方法,今天只說最簡單的線性迴歸,spark提供有兩個迴歸分析庫(mllib和ml),我學習的時候在網上也查了不少資料,有一個奇怪的現象是網上關於spark迴歸分析的資料基本全是mllib,關於ml的基本沒見到