在Jupyter notebook中配置和使用spark
阿新 • • 發佈:2019-01-09
步驟1:安裝jupyter 這裡安裝整合環境包Anaconda 下載地址及安裝方法:https://www.continuum.io/downloads 步驟2: 下載spark http://spark.apache.org/ 解壓:tar zxvf spark-2.1.0-bin-hadoop2.7.tgz 步驟3:配置jupyter登入 產生密碼:終端輸入ipython In [1]: from IPython.lib import passwd In [2]: passwd() Enter password: Verify password: Out[2]: 'sha1:6402ac25a515:2755b924b8bb5bef2475f7918776197e2f972858' 配置引數: 進入/root/.jupyter/jupyter_notebook_config.py c.NotebookApp.ip = '*' #啟動服務的地址,設定成 ‘*’ 可以從同一網段的其他機器訪問到; c.NotebookApp.open_browser = False #啟動 ipython notebook 的時候不會自動開啟瀏覽器; c.NotebookApp.password = 'sha1:6402ac25a515:2755b924b8bb5bef2475f7918776197e2f972858' # ipython notebook的登陸密碼 c.NotebookApp.port = 6666 #設定訪問埠 每次啟動ipthon notebook埠會加1 步驟4:設定環境變數 進入 vim ~/.bashrc 或 vi ~/.bashrc 在最後新增 export JAVA_HOME=/root/jdk1.8 #jdk路徑 export SPARK_HOME=/root/spark2.1 #spark的路徑 export PYSPARK_PYTHON=python3 export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip // 替換對應版本的py4j export PATH="$PATH:$JAVA_HOME/bin:$SPARK_HOME/bin:$PATH" 步驟5:後臺啟動 nohup jupyter notebook & 步驟6:訪問 ip:6666 快速啟動方法: 只需安裝spark和anaconda 執行命令: PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook"./bin/pyspark 或 spark2.0以下:IPYTHON=1 IPYTHON_OPTS=notebook ./spark/bin/pyspark 或 PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark