1. 程式人生 > 實用技巧 >python環境下使用pyspark讀取hive表

python環境下使用pyspark讀取hive表

python環境 匯入pyspark.sql

1.linux系統下,spark讀取hive表

配置檔案:
先將hive-site.xml放入linux spark內的conf內  //hive和linux下的spark連線
將jar包 mysql-connector-java.jar放入linux spark內的jars

  如圖:

2.在windows系統內,配置spark

配置檔案:
將linux內的spark/conf檔案替換掉windows下的conf檔案,hive-site.xml內的ip根據自己實際情況改動
將mysql-connector-java.jar拷入windows 下spark/jars內

3.PyChrome下測試

方式一:配置環境變數 自動讀取

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from dm_events.dm_usereventfinal limit 1")
read_df.show()  

方式二:不需配置環境變數

 spark = SparkSession.builder.master("spark://192.168.142.197:7077") \
         .config("hive.metastore.uris","thrift://192.168.142.197:9083")\
         .appName("test").enableHiveSupport().getOrCreate()
 read_df = spark.sql("select * from dm_events.dm_usereventfinal limit 1")
 read_df.show()

 注:也可以嘗試直接DOS內嘗試

>>pyspark
>>spark.sql("sql_sentence").show()