SparkSQL的反射機制和自定義建立DataFrame

阿新 • • 發佈：2019-01-05

反射機制

1.RDD[Person]-----(case:反射機制)------>DataFrameF[ROW]---->DataSet[Person]
　　RDD DF DS
　　　　Person ["name","age","address"] {Person：("name","age","address")}
　　　　Person ["name","age","address"] {Person：("name","age","address")}
　　　　Person ["name","age","address"] {Person：("name","age","address")}

　　　　Person ["name","age","address"] {Person：("name","age","address")}
　　　　Person ["name","age","address"] {Person：("name","age","address")}
2.RDD-->DataFrame-->DataSet
　　a.RDD-->DataFrame: sparksession.createDataFrame
　　b.RDD-->DataSet： sparksession.createDataSet
　　c.DF,DS-->RDD: DF.rdd-->RDD[ROW];DS.rdd-->RDD[Person]

　　d.DataFrame-->DataSet: sparksession.createDataSet(df.rdd)
　　e.DataSet-->Datafrmae: DS.toDF()

自定義建立DataFrame

　　總共分3步：

　　　　1.從原來的RDD建立一個Row格式的RDD

　　　　2.建立與RDD中Rows結構匹配的StructType，通過該StructType建立表示RDD的Schema
　　　　3.通過SparkSession提供的createDataFrame方法建立DataFrame，方法引數為RDD的Schema

　　案例：

def main(args: Array[String]): Unit = {
        val sparksession = SparkSession.builder().appName("sparkSQL").master("local").getOrCreate()
        import sparksession.implicits._
        val rdd = sparksession.sparkContext.textFile("file:///d:/測試資料/users.txt")
        //step1:從原來的RDD建立一個Row格式的RDD
        val rdd_row = rdd.map(x=>x.split(" ")).map(x=>Row(x(0),x(1).toInt,x(2)))
        //step2:建立與RDD中Rows結構匹配的StructType，通過該StructType建立表示RDD的Schema
    //    val schemaString = "name age address"
    //    // Generate the schema based on the string of schema
    //    val fields = schemaString.split(" ")
    //      .map(fieldName => StructField(fieldName, StringType, nullable = true))
        val fields = List(
                StructField("name", StringType, nullable = true),
                StructField("age", IntegerType, nullable = true),
                StructField("address", StringType, nullable = true)
                 )
        val schema = StructType(fields)
        //step3.通過SparkSession提供的createDataFrame方法建立DataFrame，方法引數為RDD的Schema
        val rdd_df = sparksession.createDataFrame(rdd_row,schema)
        rdd_df.show
      }

SparkSQL的執行流程

　　1.SQL執行過程

　　　　select f1,f2,f3 from table_name where condition

　　　　Step1-Parse(解析)：
　　　　　　首先，根據SQL語法搜素關鍵字(select、from、where、group by等等)，標誌出projection、DataSource、filter
　　　　Step2-Bind(繫結)：
　　　　　　通過解析階段的相關內容(projection、DataSource、filter),校驗DataSource、filed合法性；如果校驗失敗，拋異常。
　　　　Step3-optimize(優化)：
　　　　　　通過資料庫對當前DataSource進行的統計資料分析，執行相應的優化措施。
　　　　Step3-Execute(執行)：
　　　　　　開啟物理執行，將邏輯計劃轉化為相對應的Task。

　　2.執行計劃實質：看做成tree(樹)，樹節點上通過Rule物件儲存節點資訊。

　　　　　　SparkSQL tree節點分一個幾類：

　　　　　　　　a.一元節點：filter、count等
　　　　　　　　b.二元節點：join等
　　　　　　　　c.葉子節點：載入外部資料等；

SparkSQL的反射機制和自定義建立DataFrame

SparkSQL的反射機制和自定義建立DataFrame

java類載入機制和自定義類載入器

SharePoint品牌化和自定義--建立會議工作區母版頁

OPENSTACK-3-建立和自定義映象-自定義映象

第一行程式碼 3.4.2 建立自定義控制元件章節中初上手出項的下載完成後閃退問題和自定義控制元件無反應問題

第一行程式碼 3.4.2 建立自定義控制元件章節中初上手出項的下載完成後閃退問題和自定義控制元件無反應問題

使用NotificationCompat.Builder建立通知和自定義通知

ios中tableview的建立和自定義cell的封裝

MySQL儲存過程和自定義函式、Navicat for mysql、建立儲存過程和函式、呼叫儲存過程和函式的區別

java 通過反射和自定義泛型來修改物件

1. PMD 使用，編譯和自定義規則

DOM內容操作和自定義、樣式改變

EL函數和自定義EL函數

Android零基礎入門第39節：ListActivity和自定義列表項

java Collections.sort()實現List排序的默認方法和自定義方法

freemarker實現自定義指令和自定義函數

監控linux的系統資源和自定義進程的cpu 內存占用。

批量創建用戶賬號和自定義回收站

visual studio code教程：基礎使用和自定義設置

存儲過程和自定義函數的區別

SparkSQL的反射機制和自定義建立DataFrame

相關推薦