DataFrame DataSet Spark SQL學習
阿新 • • 發佈:2020-07-01
RDD加上結構,比如說類名,就可以變成DataFrame,DataFrame,將每一類同這一類的類名繫結在一起就可以稱為DataSet.
spark sql 就是來處理dataframe和dataset這樣的結構資料的。
spark sql使用的時候需要提供spark session環境。
// Spark 初始化 val sparkConf = new SparkConf() .setAppName("logv_learning") .setMaster("local") val sparkContext = new SparkContext(sparkConf) val sparkSession = SparkSession.builder().config(sparkConf) .getOrCreate()
上面的程式碼是建立sparkcontext sparkconf sparksession的建立方法。
dataFrame的建立方式有三種,通過spark的資料來源,直接讀取之後就是dataframe型別了。
二是從一個存在的rdd建立,通過toDF方法,方法中的引數是你為資料每一列加的列名。
三是從Hive Table進行查詢返回。
spark sql既可以通過傳統sql的方式來進行查詢,也可以使用DSL風格,類似於:
df.select("name").show()的感覺,感覺和MongoDB提供給go語言的介面相似