idea_pyspark 環境配置
阿新 • • 發佈:2017-05-27
depend ast 添加 ins count eat image 插件 port
1、配置好Hadoop和spark
2、配置好Pytho3.5
3、安裝py4j
pip3 install py4j
4、idea 中添加Python插件
file->setting->editor->plugins
右邊搜索框中 搜索Python,下載插件
5、下載完後,重啟軟件,建立Python項目,導入pyspark的包文件
導入步驟:file->project Structure->modules->右邊欄中點dependencies->點添加->將"spark/python" 添加進去
6、test:
from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession .builder .master("local") .appName("PythonWordCount") .getOrCreate() data = spark.read.csv("/lab/data/2/02singleentry.csv") data.show(10) spark.stop()
7、目前觀察不能讀取本地的數據,只能讀取HDFS上的數據
idea_pyspark 環境配置