第6章 DateFrame&Dataset

阿新 • • 發佈：2018-12-17

6-1 -課程目錄

6-2 -DataFrame產生背景

DataFrame它不是spark SQL提出的，而是早期在R，Pandas語言就已經有了的。

6-3 -DataFrame概述

6-4 -DataFrame和RDD的對比

RDD:

java/scala==>jvm

python==>python runtime

DataFrame

java/scala/python==>login Plan

6-5 -DataFrame基本API操作

參考程式碼：

https://gitee.com/sag888/big_data/blob/master/%E4%BB%A5%E6%85%95%E8%AF%BE%E7%BD%91%E6%97%A5%E5%BF%97%E5%88%86%E6%9E%90%E4%B8%BA%E4%BE%8B%20%E8%BF%9B%E5%85%A5%E5%A4%A7%E6%95%B0%E6%8D%AE%20Spark%20SQL%20%E7%9A%84%E4%B8%96%E7%95%8C/project/p1867y/ImoocSparkSQLProject/src/main/scala/com/imooc/spark/DataFrameApp.scala

package com.imooc.spark

import org.apache.spark.sql.SparkSession

/**

* DataFrame API基本操作

*/

object DataFrameApp {

def main(args: Array[String]) {

val spark = SparkSession.builder().appName("DataFrameApp").master("local[2]").getOrCreate()

// 將json檔案載入成一個dataframe

val peopleDF = spark.read.format("json").load("file:///Users/rocky/data/people.json")

// 輸出dataframe對應的schema資訊

peopleDF.printSchema()

// 輸出資料集的前20條記錄

peopleDF.show()

//查詢某列所有的資料： select name from table

peopleDF.select("name").show()

// 查詢某幾列所有的資料，並對列進行計算： select name, age+10 as age2 from table

peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 10).as("age2")).show()

//根據某一列的值進行過濾： select * from table where age>19

peopleDF.filter(peopleDF.col("age") > 19).show()

//根據某一列進行分組，然後再進行聚合操作： select age,count(1) from table group by age

peopleDF.groupBy("age").count().show()

spark.stop()

}

}

6-6 -DataFrame與RDD互操作方式一

原始碼地址：

原始碼：

package com.imooc.spark

import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}

import org.apache.spark.sql.{Row, SparkSession}

/**

* DataFrame和RDD的互操作

*/

object DataFrameRDDApp {

def main(args: Array[String]) {

val spark = SparkSession.builder().appName("DataFrameRDDApp").master("local[2]").getOrCreate()

//inferReflection(spark)

program(spark)

spark.stop()

}

def program(spark: SparkSession): Unit = {

// RDD ==> DataFrame

val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/infos.txt")

val infoRDD = rdd.map(_.split(",")).map(line => Row(line(0).toInt, line(1), line(2).toInt))

val structType = StructType(Array(StructField("id", IntegerType, true),

StructField("name", StringType, true),

StructField("age", IntegerType, true)))

val infoDF = spark.createDataFrame(infoRDD,structType)

infoDF.printSchema()

infoDF.show()

//通過df的api進行操作

infoDF.filter(infoDF.col("age") > 30).show

//通過sql的方式進行操作

infoDF.createOrReplaceTempView("infos")

spark.sql("select * from infos where age > 30").show()

}

def inferReflection(spark: SparkSession) {

// RDD ==> DataFrame

val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/infos.txt")

//注意：需要匯入隱式轉換

import spark.implicits._

val infoDF = rdd.map(_.split(",")).map(line => Info(line(0).toInt, line(1), line(2).toInt)).toDF()

infoDF.show()

infoDF.filter(infoDF.col("age") > 30).show

infoDF.createOrReplaceTempView("infos")

spark.sql("select * from infos where age > 30").show()

}

case class Info(id: Int, name: String, age: Int)

}

6-7 dataframe與rdd互操作方式

原始碼地址

原始碼：

package com.imooc.spark

import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}

import org.apache.spark.sql.{Row, SparkSession}

/**

* DataFrame和RDD的互操作

*/

object DataFrameRDDApp {

def main(args: Array[String]) {

val spark = SparkSession.builder().appName("DataFrameRDDApp").master("local[2]").getOrCreate()

//inferReflection(spark)

program(spark)

spark.stop()

}

def program(spark: SparkSession): Unit = {

// RDD ==> DataFrame

val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/infos.txt")

val infoRDD = rdd.map(_.split(",")).map(line => Row(line(0).toInt, line(1), line(2).toInt))

val structType = StructType(Array(StructField("id", IntegerType, true),

StructField("name", StringType, true),

StructField("age", IntegerType, true)))

val infoDF = spark.createDataFrame(infoRDD,structType)

infoDF.printSchema()

infoDF.show()

//通過df的api進行操作

infoDF.filter(infoDF.col("age") > 30).show

//通過sql的方式進行操作

infoDF.createOrReplaceTempView("infos")

spark.sql("select * from infos where age > 30").show()

}

def inferReflection(spark: SparkSession) {

// RDD ==> DataFrame

val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/infos.txt")

//注意：需要匯入隱式轉換

import spark.implicits._

val infoDF = rdd.map(_.split(",")).map(line => Info(line(0).toInt, line(1), line(2).toInt)).toDF()

infoDF.show()

infoDF.filter(infoDF.col("age") > 30).show

infoDF.createOrReplaceTempView("infos")

spark.sql("select * from infos where age > 30").show()

}

case class Info(id: Int, name: String, age: Int)

}

6-8 -DataFrame API操作案例實戰

學生資訊統計案例

原始檔：student.data

原始碼地址：

package com.imooc.spark

import org.apache.spark.sql.SparkSession

/**

* DataFrame中的操作操作

*/

object DataFrameCase {

def main(args: Array[String]) {

val spark = SparkSession.builder().appName("DataFrameRDDApp").master("local[2]").getOrCreate()

// RDD ==> DataFrame

val rdd = spark.sparkContext.textFile("file:///Users/rocky/data/student.data")

//注意：需要匯入隱式轉換

import spark.implicits._

val studentDF = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()

//show預設只顯示前20條

studentDF.show

studentDF.show(30)

studentDF.show(30, false)

studentDF.take(10)

studentDF.first()

studentDF.head(3)

studentDF.select("email").show(30,false)

studentDF.filter("name=''").show

studentDF.filter("name='' OR name='NULL'").show

//name以M開頭的人

studentDF.filter("SUBSTR(name,0,1)='M'").show

studentDF.sort(studentDF("name")).show

studentDF.sort(studentDF("name").desc).show

studentDF.sort("name","id").show

studentDF.sort(studentDF("name").asc, studentDF("id").desc).show

studentDF.select(studentDF("name").as("student_name")).show

val studentDF2 = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()

studentDF.join(studentDF2, studentDF.col("id") === studentDF2.col("id")).show

spark.stop()

}

case class Student(id: Int, name: String, phone: String, email: String)

}

6-9 -Dataset概述及使用

原始碼地址：

package com.imooc.spark

import org.apache.spark.sql.SparkSession

/**

* Dataset操作

*/

object DatasetApp {

def main(args: Array[String]) {

val spark = SparkSession.builder().appName("DatasetApp")

.master("local[2]").getOrCreate()

//注意：需要匯入隱式轉換

import spark.implicits._

val path = "file:///Users/rocky/data/sales.csv"

//spark如何解析csv檔案？

val df = spark.read.option("header","true").option("inferSchema","true").csv(path)

df.show

val ds = df.as[Sales]

ds.map(line => line.itemId).show

spark.sql("seletc name from person").show

//df.seletc("name")

df.select("nname")

ds.map(line => line.itemId)

spark.stop()

}

case class Sales(transactionId:Int,customerId:Int,itemId:Int,amountPaid:Double)

}

第6章 DateFrame&Dataset

6-1 -課程目錄 6-2 -DataFrame產生背景 DataFrame它不是spark SQL提出的，而是早期在R，Pandas語言就已經有了的。 6-3 -DataFrame概述 6-4 -DataFrame和RDD的對比

第6章圖的學習總結（鄰接矩陣&鄰接表）

我覺得圖這一章的學習內容更有難度，其實圖可以說是樹結構更為普通的表現形式，它的每個元素都可以與多個元素之間相關聯，所以結構比樹更復雜，然而越複雜的資料結構在現實中用途就越大了，功能與用途密切聯絡，所以，圖結構非常重要，學習起來也是有點難度的，在於圖的儲存結構和邏輯結構，以及它與其他輔助資料結構相結合（連結串列

【MySQL必知必會】第6章過濾數據

sea 錯誤 arch order by ice where 大量數據子句否則 1、使用WHERE子句　　數據庫一般包含大量數據，所以一般不會檢索所有行。只檢索所需數據需要指定搜索條件（search criteria），搜索條件也稱為過濾條件（filter condi

第6章第2講循環嵌套結構

++ pri -1 style margin wid 分享 play () main() { int i,j; for(i=1;i<=4;i++) { for(j=1;j<=i;j++)

第6章第1講簡單的循環結構

3-9 log 結構 -1 mar src () col pan main() { int sum,i; sum=0; i=1; while(i<=100) { sum=sum+i;

第6章靜態路由和動態路由（1）_靜態路由

align 將在跟蹤添加測試字母 ppp協議必須缺少 1. 路由——網絡層實現的功能 1.1 路由功能（1）網絡層的功能：給傳輸層協議提供簡單靈活的、無連接的、盡最大努力交付的數據包服務。（2）路由器為每一個數據包單獨地選擇轉發路徑，網絡層並不提供服務質量的

【C語言學習】《C Primer Plus》第6章 C控制語句：循環

double 編程練習判斷 http 學習 main 靈活 n-1 都在學習總結 1、循環的語法跟其他語言的沒差多少，可能大多數語言都在C的基礎上發展出來的，所以大同小異不奇怪。 2、在判斷表達式裏，C語言只有0被認為是假，所有非零值正整數都被認為真。

Java編程思想讀書筆記_第6章（訪問權限）

ack string 屬於 cte pri 包訪問權限 print code int 四種訪問權限： public private 包訪問權限 protected 如果沒有明確指定package，則屬於默認包 1 package access.dessert; 2

Java開發工程師(Web方向) - 01.Java Web開發入門 - 第6章.蜂巢

多個計算 margin style 打包工程自動後端服務運行第6章--蜂巢蜂巢簡介網站開發完，就需要測試、部署、在服務器上運行。網易蜂巢：采用Docker容器化技術的雲計算平臺 https://c.163.com 容器管理：容器可被視作為雲主機的服務器

第6章 RTX 操作系統源碼方式移植

效果 .com 操作系統 http -s nts onf 目錄 logs 本章教程為大家將介紹 RTX 操作系統源碼方式移植，移植工作比較簡單，只需要用戶添加需要的源碼文件即可，不需要做任何的底層工作，也不需要用戶做任何修改。源碼方式移植 RTX 系統準備好工程模板後，

python+selenium自動化軟件測試(第6章)：selenium phantomjs頁面解析使用

前端 down word logs pan canvas 鼠標 agent 瀏覽器中我們都知道Selenium是一個Web的自動化測試工具，可以在多平臺下操作多種瀏覽器進行各種動作，比如運行瀏覽器，訪問頁面，點擊按鈕，提交表單，瀏覽器窗口調整，鼠標右鍵和拖放動作，下拉框和

C後端設計開發 - 第6章-武技-常見組件上三路

錯誤 design 謝大 pos cde strong com wan .com 正文　　第6章-武技-常見組件上三路後記　　如果有錯誤, 歡迎指正. 有好的補充, 和疑問歡迎交流, 一塊提高. 在此謝謝大家了. C後端設計開發 - 第6章-武技-常

第6章數據篩選和排序

view 按鈕窗口 ren 順序文字 ted 常用屬性一個第6章數據篩選和排序一. TreeView 控件:樹狀控件,用於以節點形式顯示文本或數據,這些節點按層次結構的順序排列. 1. TreeView控件的常用屬性和事件Nodes Nodes

JZ2440 裸機驅動第6章存儲控制器

logs display 裸機包含們的不支持 sel watchdog inux 本章目標：了解S3C2410/S3C2440地址空間的布局掌握如何通過總線形式訪問擴展的外設，比如內存、NOR Flash、網卡等 ················

《Java從小白到大牛精簡版》之第6章運算符（上）

java java小白 java初學者 Java語言中的運算符（也稱操作符）在風格和功能上都與C 和C++極為相似。本章為大家介紹Java語言中一些主要的運算符，包括算術運算符、關系運算符、邏輯運算符、位運算符和其他運算符。6.1 算術運算符Java中的算術運算符主要用來組織數值類型數據的算術運

【Linux學習筆記】第6章 Linux文件壓縮和打包

linux centos 打包壓縮 tar 6.1壓縮打包介紹Windows壓縮：.rar，.zip，.7zLinux壓縮：.zip，.gz，.bz2，.xz，.tar.gz，.tar.bz2，.tar.xz 6.2gzip壓縮工具gzip FILENAME 壓縮文件，格式gz，壓縮後

第6章面向對象

創建對象 test def 駝峰 spa nbsp 必須 ont tro 面向對象中的2個概念，類和對象類命名規則：駝峰式定義：（方法中默認傳入一個參數 slfe，即他自己；slfe參數必須是第一個參數） class 類名: def 方法名(slfe

Rails 5 Test Prescriptions 第6章Adding Data to Tests

vertical ransac top 速度第6章 sat 方便 remove 必須 bcreate the data quickly and easily。考慮測試運行的速度。fixtures and factories.以及下章討論的test doubles，還有原生

第6章 AOP與全局異常處理

同名 info trace pos base auth 處理異常時有 thinkphp 第6章 AOP與全局異常處理 https://coding.imooc.com/learn/list/97.html 6-1 正確理解異常處理流程 13:23 curl+alt

[Python設計模式] 第6章衣服搭配系統——裝飾模式

!= orb 定義 use bstr 單獨 name 代碼服飾題目設計一個控制臺程序，可以給人搭配嘻哈風格（T恤，垮褲，運動鞋）或白領風格（西裝，領帶，皮鞋）的衣服並展示，類似QQ秀那樣的。基礎版本 class Person(): def __in

第6章 DateFrame&Dataset

6-1 -課程目錄

6-2 -DataFrame產生背景

6-3 -DataFrame概述

6-4 -DataFrame和RDD的對比

6-5 -DataFrame基本API操作

6-6 -DataFrame與RDD互操作方式一

6-7 dataframe與rdd互操作方式

6-8 -DataFrame API操作案例實戰

6-9 -Dataset概述及使用

相關推薦