1. 程式人生 > >Spark簡單讀寫Hive

Spark簡單讀寫Hive

Spark版本:1.6.0
語言:Python 2.7

使用Spark寫入Hive表

# --coding=utf-8--
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import HiveContext
conf = SparkConf().setAppName('test')
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
tfile = sc.textFile(fpath)
rdd = tfile.map(your_method).map(lambda
x : Row(**x)) #your_method 是自己定義的map函式 df = rdd.toDF() #轉化成DataFrame #存入Hive表中,mode有append, overwrite, error, ignore 這4種模式 df.write.saveAsTable('testtable',mode='overwrite') filterDF=sqlContext.sql("SELECT * FROM testtable") filterDF.show()

使用Spark讀取Hive表資料

# --coding=utf-8--
from pyspark import
SparkContext from pyspark import SparkConf from pyspark.sql import HiveContext conf = SparkConf().setAppName('test') sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) filterDF=sqlContext.sql("SELECT * FROM testtable") filterDF.show()