1. 程式人生 > >在Jupyter notebook中配置和使用spark

在Jupyter notebook中配置和使用spark

步驟1:安裝jupyter 這裡安裝整合環境包Anaconda
下載地址及安裝方法:https://www.continuum.io/downloads

步驟2:
下載spark http://spark.apache.org/ 
解壓:tar zxvf   spark-2.1.0-bin-hadoop2.7.tgz

步驟3:配置jupyter登入
產生密碼:終端輸入ipython
In [1]: from IPython.lib import passwd
In [2]: passwd()
Enter password: 
Verify password: 
Out[2]: 'sha1:6402ac25a515:2755b924b8bb5bef2475f7918776197e2f972858'

配置引數:
進入/root/.jupyter/jupyter_notebook_config.py
c.NotebookApp.ip = '*'   #啟動服務的地址,設定成 ‘*’ 可以從同一網段的其他機器訪問到;
c.NotebookApp.open_browser = False     #啟動 ipython notebook 的時候不會自動開啟瀏覽器;
c.NotebookApp.password = 'sha1:6402ac25a515:2755b924b8bb5bef2475f7918776197e2f972858'  # ipython notebook的登陸密碼
c.NotebookApp.port = 6666 #設定訪問埠 每次啟動ipthon notebook埠會加1 

步驟4:設定環境變數
進入 vim ~/.bashrc 或 vi ~/.bashrc 在最後新增
export JAVA_HOME=/root/jdk1.8   #jdk路徑
export SPARK_HOME=/root/spark2.1 #spark的路徑
export PYSPARK_PYTHON=python3   
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip // 替換對應版本的py4j
export PATH="$PATH:$JAVA_HOME/bin:$SPARK_HOME/bin:$PATH"

步驟5:後臺啟動
nohup jupyter notebook &

步驟6:訪問 ip:6666


快速啟動方法:
只需安裝spark和anaconda
執行命令:
PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook"./bin/pyspark
或
spark2.0以下:IPYTHON=1 IPYTHON_OPTS=notebook ./spark/bin/pyspark
或
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark