Spark建立DataFrame的三種方法

阿新 • • 發佈：2018-12-24

跟關係資料庫的表(Table)一樣，DataFrame是Spark中對帶模式(schema)行列資料的抽象。DateFrame廣泛應用於使用SQL處理大資料的各種場景。建立DataFrame有很多種方法，比如從本地List建立、從RDD建立或者從源資料建立，下面簡要介紹建立DataFrame的三種方法。

方法一，Spark中使用`toDF`函式建立DataFrame

通過匯入(importing)Spark sql implicits, 就可以將本地序列(seq), 陣列或者RDD轉為DataFrame。只要這些資料的內容能指定資料型別即可。

本地seq + toDF建立DataFrame示例：

import sqlContext.implicits._
val df = Seq(
  (1, "First Value", java.sql.Date.valueOf("2010-01-01")),
  (2, "Second Value", java.sql.Date.valueOf("2010-02-01"))
).toDF("int_column", "string_column", "date_column")

注意：如果直接用toDF()而不指定列名字，那麼預設列名為"_1", "_2", ...

通過case class + toDF建立DataFrame的示例

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// this is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

// Define the schema using a case class.
// Note: Case classes in Scala 2.10 can support only up to 22 fields. To work around this limit,
// you can use custom classes that implement the Product interface.
case class Person(name: String, age: Int)

// Create an RDD of Person objects and register it as a table.
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")

// 使用 sqlContext 執行 sql 語句.
val teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")

// 注：sql()函式的執行結果也是DataFrame，支援各種常用的RDD操作.
// The columns of a row in the result can be accessed by ordinal.
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

方法二，Spark中使用`createDataFrame`函式建立DataFrame

在SqlContext中使用createDataFrame也可以建立DataFrame。跟toDF一樣，這裡建立DataFrame的資料形態也可以是本地陣列或者RDD。

通過row+schema建立示例

import org.apache.spark.sql.types._
val schema = StructType(List(
    StructField("integer_column", IntegerType, nullable = false),
    StructField("string_column", StringType, nullable = true),
    StructField("date_column", DateType, nullable = true)
))

val rdd = sc.parallelize(Seq(
  Row(1, "First Value", java.sql.Date.valueOf("2010-01-01")),
  Row(2, "Second Value", java.sql.Date.valueOf("2010-02-01"))
))
val df = sqlContext.createDataFrame(rdd, schema)

方法三，通過檔案直接建立DataFrame

使用parquet檔案建立

val df = sqlContext.read.parquet("hdfs:/path/to/file")

使用json檔案建立

val df = spark.read.json("examples/src/main/resources/people.json")

// Displays the content of the DataFrame to stdout
df.show()
// +----+-------+
// | age|   name|
// +----+-------+
// |null|Michael|
// |  30|   Andy|
// |  19| Justin|
// +----+-------+

使用csv檔案,spark2.0+之後的版本可用

//首先初始化一個SparkSession物件
val spark = org.apache.spark.sql.SparkSession.builder
        .master("local")
        .appName("Spark CSV Reader")
        .getOrCreate;

//然後使用SparkSessions物件載入CSV成為DataFrame
val df = spark.read
        .format("com.databricks.spark.csv")
        .option("header", "true") //reading the headers
        .option("mode", "DROPMALFORMED")
        .load("csv/file/path"); //.csv("csv/file/path") //spark 2.0 api

df.show()

補充：spark資料集的演變：
spark_dataframe

Spark建立DataFrame的三種方法

Spark DataFrame 新增索引列的三種方法

Spark DataFrame 新增索引列的三種方法剛開始用Spark，操作dataframe不是很熟練，遇到的第一個問題是給dataframe新增索引列，查閱了網上的一些教程，大都是用Scala語言編寫的程式碼，下面給出自己用python寫的三種方法。方法一：先建立

Spark 建立DataFrame的三種方式

1.從資料庫讀資料建立DF /**SQLComtext 建立 DataFrame 1**/ def createDataFrame(sqlCtx: SQLContext): Unit = { val prop = new Properties() p

Apache Spark 2.0三種API的傳說：RDD、DataFrame和Dataset

sensor json數據 query 答案內存 table 引擎 library spark Apache Spark吸引廣大社區開發者的一個重要原因是：Apache Spark提供極其簡單、易用的APIs，支持跨多種語言(比如：Scala、Java、Python和R

Windows 10 應用建立模糊背景視窗的三種方法

原文 Windows 10 應用建立模糊背景視窗的三種方法現代的作業系統中建立一張圖片的高斯模糊效果非常容易，不過如果要在視窗中獲得模糊支援就需要作業系統的原生支援了。iOS/Mac 和 Windows 系統都對此有支援。本文將介紹三種建立模糊背景視窗的方法。有人可能喜歡稱之為毛玻璃視窗、亞克力視窗。

iOS開發(Swift)：建立UINavigationView的三種方法

UINavigationController是iOS開發中很常用的一種元件，由於種種原因許多人喜歡從程式碼建立檢視控制元件，包括UINavigationController，但是有時候我們的螢幕控制元件太多，一方面使用storyboard可以方便設計，但是另一方面又需要用程式碼建立UINavi

JS建立物件的三種方法

JS建立物件的三種方法工廠模式： function person(name,age,job){ var obj = new Object(); obj.name = name； obj.age = age； obj.sayName = function(){ alert

JavaScript - 建立物件的三種方法

一. 構造器建立：var objName = new Object() 1.屬性（新增屬性：物件名.屬性名 = 屬性值訪問屬性：物件名.屬性名） 2.方法（新增方法：物件名.方法名 = function ( )

eclipse建立springboot專案的三種方法

方法一安裝STS外掛安裝外掛導向視窗完成後，在eclipse右下角將會出現安裝外掛的進度，等外掛安裝完成後重啟eclipse生效新建spring boot專案專案啟動方法二 1.建立Maven專案 2.

java 建立執行緒的三種方法

在java中使用Thread類代表執行緒，所有的執行緒物件都必須是Thread類或其子類的例項，建立執行緒有三種方式： 1.通過繼承Thread類建立執行緒； 2.通過實現Runnable介面建立執行緒； 3.通過使用Callable和Future建立執行緒。建立執行緒demo

執行緒及建立執行緒的三種方法

基本概念程式：是為了完成特定任務，用某種語言編寫的一組指令的集合.即指一段靜態程式碼。程序：程序是程式的一次執行過程，是系統進行資源分配和處理機排程的一個獨立單位。程式是一個靜態的概念，程序是一個動態的概念。一個程式多次執行，對應多個程序；不同的程序可以包含同一程式。執行緒：

Linux軟體安裝——mysql5.7-安裝新手入門 6、MySQL建立使用者的三種方法

因測試工作需要，在Linux上自搭一個mysql服務。但對入門linux的同志，剛開始最迫切想知道的，大概一個是中文輸入法，另一個就是怎麼安裝軟體。本文主要學習了LINUX安裝軟體的特點，並完成安裝mysql的安裝作為實踐。一、Linux軟體安裝須知： &

Java基礎-建立執行緒的三種方法

1.繼承Thread類 1）定義Thread類的子類，並重寫run方法，run方法就是執行緒要執行的任務，將其稱為執行體。 2）建立Thread類子類的物件，即建立了執行緒物件。 3）呼叫執行緒物件的start()方法來啟動該執行緒。此方法需要覆蓋掉其中的run()方法。 1 public

React建立元件的三種方法

無狀態函式式元件建立純展示元件，只負責根據傳入的props 來展示，不涉及到要state 狀態的操作，是一個只帶有一個render 方法的元件類建立形式如下： function HelloComponent(props) { return <div>Hello {

c++ 建立物件的三種方法

c++有三種方法建立物件結合程式碼來看 1 #include <iostream> 2 using namespace std; 3 class Test { 4 5 private: 6 public:

java中建立執行緒的三種方法以及區別

Java使用Thread類代表執行緒，所有的執行緒物件都必須是Thread類或其子類的例項。Java可以用三種方式來建立執行緒，如下所示： 1）繼承Thread類建立執行緒 2）實現Runnable介面建立執行緒 3）使用Callable和Future建立執行緒下面

Spring建立物件的三種方法之一建構函式建立（原始碼）

Spring建立物件有三種方法，分別是： 1、建構函式建立 2、靜態工廠方法 3、例項工廠方法這裡說下第一種方法，採用建構函式來建立，我這裡直接給原始碼，湊合著看看，能用就可以了，如果想要更深入的瞭解，那麼只有自己去找資料了。第一個類：D1.java pa

DataFrame建立的三種方式

// Define the schema using a case class.// Note: Case classes in Scala 2.10 can support only up to 22 fields. To work around this limit,// you can use cust

mysql建立使用者的三種方法

一、賬號名稱的構成方式賬號的組成方式：使用者名稱+主機（所以可以出現重複的使用者名稱，跟其他的資料庫不一樣）使用者名稱：16字元以內. 主機名：可以用主機名和IP地址，也可以用萬用字元萬用字元說明：172.18.10.%（IP地址為172.18.1

JavaScript裡建立物件的三種方法

JavaScript把幾乎一切都當做物件，因此語言中所有的元素都可以被建立、賦予屬性以及被連結到原型鏈中。僅有的例外是null和undefined。在JavaScript中物件是被創建出來的，它們不是憑空產生的。1. 物件字面量字面量語法可以用內聯的方式描述一個物件，外面有一

Spark建立DataFrame的三種方法

方法一，Spark中使用toDF函式建立DataFrame

方法二，Spark中使用createDataFrame函式建立DataFrame

方法三，通過檔案直接建立DataFrame

相關推薦

方法一，Spark中使用`toDF`函式建立DataFrame

方法二，Spark中使用`createDataFrame`函式建立DataFrame