1. 程式人生 > >在jupyter notebook上引用pyspark

在jupyter notebook上引用pyspark

  1. 最近都是直接使用pyspark shell或者用pycharm來寫spark的程式碼,但是在處理資料或者看訓練結果的時候還是jupyter notebook方便太多太多,但是在jupyter中沒辦法引入pyspark,導致不太方便,這裡記錄一下在jupyter notebook引入pyspark的方法。
  2. 環境:anaconda(推薦所有人都裝,非常的方便)python3.6,spark2.0,作業系統為macos,要確定自己的spark可以通過shell啟動

兩種方案

一共有兩種方案,大家自己看哪個更加方便

一:shell啟動
PYSPARK_DRIVER_PYTHON="jupyter"
PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

直接使用上述命令啟動jupyter notebook就可以了,缺點就是輸入麻煩

二:安裝findspark

安裝findspark,然後再jupyter notebook中引入並初始化一下就可以了,具體操作如下

切換到自己的python環境下,執行:
pip install findspark 

使用anaconda開啟jupyter notebook,在文件中輸入下列內容即可
import findspark
findspark.init()

from pyspark import SparkContext, SparkConf