1. 程式人生 > 實用技巧 >DataFrame DataSet Spark SQL學習

DataFrame DataSet Spark SQL學習

RDD加上結構,比如說類名,就可以變成DataFrame,DataFrame,將每一類同這一類的類名繫結在一起就可以稱為DataSet.

spark sql 就是來處理dataframe和dataset這樣的結構資料的。

spark sql使用的時候需要提供spark session環境。

// Spark 初始化
    val sparkConf = new SparkConf()
      .setAppName("logv_learning")
      .setMaster("local")
    val sparkContext = new SparkContext(sparkConf)
    val sparkSession = SparkSession.builder().config(sparkConf)
      .getOrCreate()

  上面的程式碼是建立sparkcontext sparkconf sparksession的建立方法。

dataFrame的建立方式有三種,通過spark的資料來源,直接讀取之後就是dataframe型別了。

二是從一個存在的rdd建立,通過toDF方法,方法中的引數是你為資料每一列加的列名。

三是從Hive Table進行查詢返回。

spark sql既可以通過傳統sql的方式來進行查詢,也可以使用DSL風格,類似於:

df.select("name").show()的感覺,感覺和MongoDB提供給go語言的介面相似