在jupyter notebook上引用pyspark
阿新 • • 發佈:2019-01-22
- 最近都是直接使用pyspark shell或者用pycharm來寫spark的程式碼,但是在處理資料或者看訓練結果的時候還是jupyter notebook方便太多太多,但是在jupyter中沒辦法引入pyspark,導致不太方便,這裡記錄一下在jupyter notebook引入pyspark的方法。
- 環境:anaconda(推薦所有人都裝,非常的方便)python3.6,spark2.0,作業系統為macos,要確定自己的spark可以通過shell啟動
兩種方案
一共有兩種方案,大家自己看哪個更加方便
一:shell啟動
PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
直接使用上述命令啟動jupyter notebook就可以了,缺點就是輸入麻煩
二:安裝findspark
安裝findspark,然後再jupyter notebook中引入並初始化一下就可以了,具體操作如下
切換到自己的python環境下,執行:
pip install findspark
使用anaconda開啟jupyter notebook,在文件中輸入下列內容即可
import findspark
findspark.init()
from pyspark import SparkContext, SparkConf