python環境下使用pyspark讀取hive表
阿新 • • 發佈:2020-12-24
python環境 匯入pyspark.sql
1.linux系統下,spark讀取hive表
配置檔案: 先將hive-site.xml放入linux spark內的conf內 //hive和linux下的spark連線 將jar包 mysql-connector-java.jar放入linux spark內的jars
如圖:
2.在windows系統內,配置spark
配置檔案: 將linux內的spark/conf檔案替換掉windows下的conf檔案,hive-site.xml內的ip根據自己實際情況改動 將mysql-connector-java.jar拷入windows 下spark/jars內
3.PyChrome下測試
方式一:配置環境變數 自動讀取
spark = SparkSession.builder.master("local[*]")\ .appName("test").enableHiveSupport().getOrCreate() read_df=spark.sql("select * from dm_events.dm_usereventfinal limit 1") read_df.show()
方式二:不需配置環境變數
spark = SparkSession.builder.master("spark://192.168.142.197:7077") \ .config("hive.metastore.uris","thrift://192.168.142.197:9083")\ .appName("test").enableHiveSupport().getOrCreate() read_df = spark.sql("select * from dm_events.dm_usereventfinal limit 1") read_df.show()
注:也可以嘗試直接DOS內嘗試
>>pyspark >>spark.sql("sql_sentence").show()