Spark 建立DataFrame的三種方式

阿新 • • 發佈：2019-01-27

1.從資料庫讀資料建立DF

  /**SQLComtext 建立 DataFrame 1**/
  def createDataFrame(sqlCtx: SQLContext): Unit = {
    val prop = new Properties()
    prop.put("user","root")
    prop.put("password","abc314")
    prop.put("driver","com.mysql.jdbc.Driver")
    val dataDF = sqlCtx.read.jdbc("jdbc:mysql://localhost:3306/test","sy_users",prop)
    dataDF.show()

2. 通過SQLContext的createDataFrame方法構建DF

/**SQLComtext 建立 DataFrame 2**/
  def createDtaFrame(sparkCtx:SparkContext,sqlCtx:SQLContext):Unit = {
    val rowRDD = sparkCtx.textFile("D://TxtData/studentInfo.txt").map(_.split(",")).map(p => Row(p(0),p(1).toInt,p(2)))
    val schema = StructType(
      Seq(
        StructField("name",StringType,true),
        StructField("age",IntegerType,true),
        StructField("studentNo",StringType,true)
      )
    )
    val dataDF = sqlCtx.createDataFrame(rowRDD,schema)

    //df註冊到記憶體表
    dataDF.registerTempTable("Student")
    val result = sqlCtx.sql("select * from Student")
    result.show()

    //    dataDF.select("name").show()
    //    dataDF.filter(dataDF("age") <14).show()
    //    dataDF.where("age <> ''").show()
  }

3.通過隱式轉換構建DF

 /** SQLComtext 建立 DataFrame 3 **/
  case class Person(str: String, i: Int, str1: String)
  def createDF(sparkCtx:SparkContext,sqlCtx:SQLContext):Unit = {
    import sqlCtx.implicits._
    val dataDF = sparkCtx.textFile("D://TxtData/studentInfo.txt")
      .map(_.split(",")).map(p => Person(p(0),p(1).toInt,p(2))).toDF()
    dataDF.show()
  }

推薦第三種方式，簡潔明瞭！

4.DF入Hive庫例項

 result.where("userID <> '-' and newsID <> ''").registerTempTable("temp_newsTable")
    hiveCtx.sql("INSERT OVERWRITE TABLE mmbigdata.ods_mm_news " +
      "partition (year='"+year+"',month='"+month+"',day='"+day+"',type='view') select * from temp_newsTable")

DataFrame建立的三種方式

// Define the schema using a case class.// Note: Case classes in Scala 2.10 can support only up to 22 fields. To work around this limit,// you can use cust

元素建立的三種方式

<!--3.document.createElement("標籤的名字")--&

JavaScript中元素建立的三種方式

目錄 1. document.write("標籤的程式碼及內容"); 缺陷:如果是在頁面載入完畢後,此時通過這種方式建立元素,那麼頁面上存在的所有的內容全部被幹掉 <body> <input type="button" valu

Java多執行緒建立的三種方式與對比

一、繼承Thread類建立執行緒類 1、定義Thread類的子類，並重寫該類的run()方法，該run()方法的方法體代表了執行緒需要完成的任務，即執行緒的執行體。 2、建立Thread子類的例項，即建立執行緒物件。 3、呼叫執行緒物件的start()方法來啟動該執行緒

物件建立的三種方式和閉包的兩種常用場景--js

物件建立的三種方式 ①通過new關鍵字建立物件 var obj = new Object(); obj.name = 'daxue'; obj.age = 28; obj.fun = function(){ } alert(obj.age); ②

50、多執行緒建立的三種方式之實現Runnable介面

實現Runnable介面建立執行緒使用Runnable建立執行緒步驟： package com.sutaoyu.Thread; //1.自定義一個類實現java.lang包下的Runnable介面 class MyRunnable implements Runnable{ /

JS 之函式定義 & 建立物件三種方式

JS函式建立三種方式 JS建立物件三種方式一、javaScript 函式建立的三種方式 <html> <head> <meta http-equiv="Content-Type" content="text/htm

多執行緒(一)執行緒建立的三種方式

建立執行緒的三種方式： 1.第一種方式繼承Thread類，重寫Thread類中的run方法，還需要呼叫start方法，start方法相當於通知CPU，執行緒已經就緒，CPU在合適的時間點呼叫該執行緒的run方法;我們程式中的main方法，我們稱之為主執行緒。 2.建立執行緒的第二種方式，實現Runnabl

springBoot專案建立的三種方式

（一）Spring Tool Suite（即我們俗稱的STS） 1、開啟sts，file-->new-->other 點選“Spring-starter-Project”，以上資訊依次為專案名稱，專案型別，打包型別，javaJDK版本，語言型別，包

Spark 建立DataFrame的三種方式

1.從資料庫讀資料建立DF /**SQLComtext 建立 DataFrame 1**/ def createDataFrame(sqlCtx: SQLContext): Unit = { val prop = new Properties() p

Spark建立DataFrame的三種方法

跟關係資料庫的表(Table)一樣，DataFrame是Spark中對帶模式(schema)行列資料的抽象。DateFrame廣泛應用於使用SQL處理大資料的各種場景。建立DataFrame有很多種方法，比如從本地List建立、從RDD建立或者從源資料建立，下面簡要介紹建立DataFrame的三種方

[1.2]Spark core程式設計（一）之RDD總論與建立RDD的三種方式

參考場景 RDD的理解一、RDD是基於工作集的應用抽象;是分散式、函數語言程式設計的抽象。 MapReduce:基於資料集的處理。兩者的共同特徵：位置感知（具體資料在哪裡）、容錯、負載均衡。基於資料集的處理：從物理儲存裝置上載入資料，然

Pandas：建立DataFrame的三種方式

from pandas import Series,DataFrame import pandas as pd 1.使用包含列表的字典建立DataFrame data = {'水果':['蘋

Apache Spark 2.0三種API的傳說：RDD、DataFrame和Dataset

sensor json數據 query 答案內存 table 引擎 library spark Apache Spark吸引廣大社區開發者的一個重要原因是：Apache Spark提供極其簡單、易用的APIs，支持跨多種語言(比如：Scala、Java、Python和R

JS建立物件，陣列，函式的三種方式

　　害怕自己忘記，簡單總結一下　　建立物件的3種方法　　①：建立一個空物件　　　　var obj = {}; 　　②：物件字面量　　　　var obj = { 　　　　　　name: "Tom", 　　　　　　age: 27　　　　} 　　③

Linux下建立程序的三種方式及特點

在Linux中主要提供了fork、vfork、clone三個程序建立方法。在linux原始碼中這三個呼叫的執行過程是執行fork(),vfork(),clone()時，通過一個系統呼叫表對映到sys_fork(),sys_vfork(),sys_clone(),再在這三個函式中去呼叫d

Java建立一個多執行緒的三種方式

步驟一：執行緒概念首先要理解程序(Processor)和執行緒(Thread)的區別程序：啟動一個LOL.exe就叫一個程序。接著又啟動一個DOTA.exe，這叫兩個程序。執行緒：執行緒是在程序內部同時做的事情，比如在LOL裡，有很多事情要同時做，比如"蓋倫” 擊殺“

元素的建立三種方式案例—動態建立列表

要點： 1.通過document.write()建立，如果是頁面載入完成再執行這種方式建立元素物件，會將原來頁面上的內容全部清除掉。如果在頁面載入的過程中，則不會出現這種狀況，但是也沒有什麼意義 2.通過.innerHTML會重新賦值，如果原來節點有內容會被層疊掉，為了建立有文字內容元素時候

web前端之react建立元件的三種方式

eact建立元件的三種方式： 1、函式式無狀態元件 2、es5方式React.createClass元件 3、es6方式extends React.Component 三種建立方式的異同 1、函式式無狀態元件（1）語法（2）特點 ● 它是為了建立純展示

vue.js 三種方式安裝 ( vue-cli ) 、安裝詳解、建立專案

Vue.js（讀音 /vjuː/, 類似於 view）是一個構建資料驅動的 web 介面的漸進式框架。Vue.js 的目標是通過儘可能簡單的 API 實現響應的資料繫結和組合的檢視元件。它不僅易於上手，還便於與第三方庫或既有專案整合。 &nbs

Spark 建立DataFrame的三種方式

相關推薦