spark SQL學習（認識spark SQL）

阿新 • • 發佈：2019-01-10

spark SQL學習（認識spark SQL）

spark SQL初步認識

spark SQL是spark的一個模組，主要用於進行結構化資料的處理。它提供的最核心的程式設計抽象就是DataFrame。

DataFrame：它可以根據很多源進行構建，包括：結構化的資料檔案，hive中的表，外部的關係型資料庫，以及RDD

建立DataFrame

資料檔案students.json

{"id":1, "name":"leo", "age":18}
{"id":2, "name":"jack", "age":19}
{"id":3, "name":"marry", "age":17}

spark-shell裡建立DataFrame

//將檔案上傳到hdfs目錄下
[email protected]:~/wujiadong$ hadoop fs -put students.json /student/2016113012/spark
//啟動spark shell
[email protected]:~$ spark-shell
//匯入SQLContext
scala> import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.SQLContext
//宣告一個SQLContext的物件，以便對資料進行操作
scala> val sql = new SQLContext(sc)
warning: there was one deprecation warning; re-run with -deprecation for details
sql: org.apache.spark.sql.SQLContext =  
[email protected]
//讀取資料
scala> val students = sql.read.json("hdfs://master:9000/student/2016113012/spark/students.json")
students: org.apache.spark.sql.DataFrame = [age: bigint, id: bigint ... 1 more field]
//顯示資料
scala> students.show
+---+---+-----+
|age| id| name|
+---+---+-----+
| 18|  1|  leo|
| 19|  2| jack|
| 17|  3|marry|
+---+---+-----+

DataFrame常用操作

scala> students.show
+---+---+-----+
|age| id| name|
+---+---+-----+
| 18|  1|  leo|
| 19|  2| jack|
| 17|  3|marry|
+---+---+-----+

scala> students.printSchema
root
 |-- age: long (nullable = true)
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)
 
 
scala> students.select("name").show
+-----+
| name|
+-----+
|  leo|
| jack|
|marry|
+-----+ 

scala> students.select(students("name"),students("age")+1).show
+-----+---------+
| name|(age + 1)|
+-----+---------+
|  leo|       19|
| jack|       20|
|marry|       18|
+-----+---------+

scala> students.filter(students("age")>18).show
+---+---+----+
|age| id|name|
+---+---+----+
| 19|  2|jack|
+---+---+----+


scala> students.groupBy("age").count().show
+---+-----+                                                                     
|age|count|
+---+-----+
| 19|    1|
| 17|    1|
| 18|    1|
+---+-----+

兩種方式將RDD轉換成DataFrame

1）基於反射方式

package wujiadong_sparkSQL

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by Administrator on 2017/3/5.
  */
object RDDDataFrameReflection {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("rdddatafromareflection")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    val fileRDD = sc.textFile("hdfs://master:9000/student/2016113012/data/students.txt")
    val lineRDD = fileRDD.map(line => line.split(","))
    //將RDD和case class關聯
    val studentsRDD = lineRDD.map(x => Students(x(0).toInt,x(1),x(2).toInt))
    //在scala中使用反射方式，進行rdd到dataframe的轉換，需要手動匯入一個隱式轉換
    import sqlContext.implicits._
    val studentsDF = studentsRDD.toDF()
    //登錄檔
    studentsDF.registerTempTable("t_students")
    val df = sqlContext.sql("select * from t_students")
    df.rdd.foreach(row => println(row(0)+","+row(1)+","+row(2)))
    df.rdd.saveAsTextFile("hdfs://master:9000/student/2016113012/data/out")


  }

}
//放到外面
case class Students(id:Int,name:String,age:Int)

執行結果

[email protected]:~/wujiadong$ spark-submit --class wujiadong_sparkSQL.RDDDataFrameReflection  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar
17/03/05 22:46:45 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/03/05 22:46:48 INFO Slf4jLogger: Slf4jLogger started
17/03/05 22:46:48 INFO Remoting: Starting remoting
17/03/05 22:46:49 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:34921]
17/03/05 22:46:49 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
17/03/05 22:46:51 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.
17/03/05 22:47:00 INFO FileInputFormat: Total input paths to process : 1
17/03/05 22:47:07 INFO deprecation: mapred.tip.id is deprecated. Instead, use mapreduce.task.id
17/03/05 22:47:07 INFO deprecation: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id
17/03/05 22:47:07 INFO deprecation: mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap
17/03/05 22:47:07 INFO deprecation: mapred.task.partition is deprecated. Instead, use mapreduce.task.partition
17/03/05 22:47:07 INFO deprecation: mapred.job.id is deprecated. Instead, use mapreduce.job.id
1,leo,17
2,marry,17
3,jack,18
4,tom,19
17/03/05 22:47:10 INFO FileOutputCommitter: Saved output of task 'attempt_201703052247_0001_m_000000_1' to hdfs://master:9000/student/2016113012/data/out/_temporary/0/task_201703052247_0001_m_000000

2）程式設計介面方式

package wujiadong_sparkSQL


import org.apache.spark.sql.types._
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by Administrator on 2017/3/5.
  */
object RDDDataFrameBianchen {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("RDDDataFrameBianchen")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    //指定地址建立rdd
    val studentsRDD = sc.textFile("hdfs://master:9000/student/2016113012/data/students.txt").map(_.split(","))
    //將rdd對映到rowRDD
    val RowRDD = studentsRDD.map(x => Row(x(0).toInt,x(1),x(2).toInt))
    //以程式設計方式動態構造元素據
    val schema = StructType(
      List(
        StructField("id",IntegerType,true),
        StructField("name",StringType,true),
        StructField("age",IntegerType,true)
      )
    )
    //將schema資訊對映到rowRDD
    val studentsDF = sqlContext.createDataFrame(RowRDD,schema)
    //登錄檔
    studentsDF.registerTempTable("t_students")
    val df = sqlContext.sql("select * from t_students order by age")
    df.rdd.collect().foreach(row => println(row))
  }

}

執行結果

[email protected]:~/wujiadong$ spark-submit --class wujiadong_sparkSQL.RDDDataFrameBianchen --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar
17/03/06 11:07:25 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/03/06 11:07:27 INFO Slf4jLogger: Slf4jLogger started
17/03/06 11:07:27 INFO Remoting: Starting remoting
17/03/06 11:07:28 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:49756]
17/03/06 11:07:32 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.
17/03/06 11:07:38 INFO FileInputFormat: Total input paths to process : 1
17/03/06 11:07:44 INFO deprecation: mapred.tip.id is deprecated. Instead, use mapreduce.task.id
17/03/06 11:07:44 INFO deprecation: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id
17/03/06 11:07:44 INFO deprecation: mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap
17/03/06 11:07:44 INFO deprecation: mapred.task.partition is deprecated. Instead, use mapreduce.task.partition
17/03/06 11:07:44 INFO deprecation: mapred.job.id is deprecated. Instead, use mapreduce.job.id
[1,leo,17]                                                                      
[2,marry,17]
[3,jack,18]
[4,tom,19]
17/03/06 11:07:47 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon.
17/03/06 11:07:47 INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports.
17/03/06 11:07:47 INFO RemoteActorRefProvider$RemotingTerminator: Remoting shut down.

DataFrame與RDD

1）在spark中，DataFrame是一種以RDD為基礎的分散式資料集，類似於傳統資料庫中的二維表格

2）DataFrame與RDD的主要區別就是，前者帶有schema元資訊，即DataFrame所表示的二維表資料集的每一列都帶有名稱和型別

參考資料
http://9269309.blog.51cto.com/9259309/1851673

參考資料
http://blog.csdn.net/ronaldo4511/article/details/53406069

參考資料
http://spark.apache.org/docs/latest/sql-programming-guide.html#overview

分類: Spark

好文要頂關注我收藏該文

鄔家棟
 關注 - 10
粉絲 - 7

+加關注

« 上一篇：spark SQL學習（案例-統計每日銷售）
» 下一篇：spark SQL學習（綜合案例-日誌分析）

posted @ 2017-03-07 20:22 鄔家棟閱讀(9767) 評論(0) 編輯收藏

spark SQL學習（認識spark SQL）

spark SQL學習（認識spark SQL） spark SQL初步認識 spark SQL是spark的一個模組，主要用於進行結構化資料的處理。它提供的最核心的程式設計抽象就是DataFrame。 DataFrame：它可以根據很多源進行構建，包括：結構化的資料檔案，hive中的表

spark SQL學習（綜合案例-日誌分析）

日誌分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala> val logRDD = sc.textFile("hdfs://

spark SQL學習（案例-統計每日uv）

需求：統計每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apach

spark SQL學習（案例-統計每日銷售）

需求：統計每日銷售額 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext} import org.apach

What’s new for Spark SQL in Apache Spark 1.3（中英雙語）

block htm park -h apache HA log -a -- 文章標題 What’s new for Spark SQL in Apache Spark 1.3 作者介紹 Michael Armbrust 文章正文參考文獻

Spark機器學習（上）

控制常用 nbsp 建立判斷測試數據話題 with 分享圖片 1、機器學習概念 1.1 機器學習的定義在維基百科上對機器學習提出以下幾種定義：l“機器學習是一門人工智能的科學，該領域的主要研究對象是人工智能，特別是如何在經驗學習中改善具體算法的性能”。l“機

Spark基礎-scala學習（五、集合）

cti dset 函數式 hashset trees 不可變 buffer you als 集合 scala的集合體系結構 List LinkedList Set 集合的函數式編程函數式編程綜合案例：統計多個文本內的單詞總數 scala的集合體系結構 scala中的

每週薦書微服務 SQL調優機器學習（評論送書）

每週薦書：微服務、SQL調優、機器學習（評論送書）感謝大家對每週薦書欄目的支援，先公佈下上週中獎名單極簡民團司令 Docker到Kubernetes實踐全接觸（紀念版）請以上六位使用者私信給小編快遞地址，我儘快給各位傳送獎品。每週薦書活動規則：在文末評論裡回覆你對本週推薦圖書的

spark streaming 學習（和flume結合+和kafka 的結合）

spark 2.1 設定日誌級別很簡單下面幾行程式碼就可以搞定主要是下面畫橫線的程式碼val conf = new SparkConf().setAppName("FlumePollWordCount").setMaster("local[2]") val sc = ne

SQL學習（2）——MySQL資料庫常用的函式--聚合函式

一、聚合函式聚合函式對一組值執行計算並返回單一的值，聚合函式與group by子句一塊使用方能顯現它的強大，聚合函式與其他函式的根本區別：聚合函式一般作用在多條記錄上，聚合函式中除了count()外，都忽略空值。 **聚合函式用表： CREA

《Spark機器學習》筆記——Spark分類模型（線性迴歸、樸素貝葉斯、決策樹、支援向量機）

一、分類模型的種類 1.1、線性模型 1.1.1、邏輯迴歸 1.2.3、線性支援向量機 1.2、樸素貝葉斯模型 1.3、決策樹模型二、從資料中抽取合適的特徵 MLlib中的分類模型通過LabeledPoint(label: Double, features

Spark原始碼學習（4）——Scheduler

本文要解決的問題：從scheduler各個類的具體方法閱讀原始碼，進一步瞭解Spark的scheduler的工作原理和過程。 Scheduler的基本過程使用者提交的Job到DAGScheduler後，會封裝成ActiveJob，同時啟動Job

SQL學習（一）--資料庫行列轉換

SQLServer 1、UNPIVOT 操作符 UNPIVOT操作符就是取得一個行的資料集合，然後把每一行都轉換成多個行資料。 UNPIVOT 語法下面就是 UNPIVOT 的語法: SELECT [columns not unpivoted], [unp

Oracle學習（五）--sql查詢（包含子查詢）

這裡用到了三個表，emp,dept,salgrade 注意閱讀“請先讀我”檔案結構如下面幾個圖所示表中的資料有以下圖所示： emp表----員工資訊表 dept表-----部門資訊

Spark原始碼學習（二）---Master和Worker的啟動以及Actor通訊流程

在《Spark原始碼學習（一）》中通過Spark的啟動指令碼，我們看到Spark啟動Master的時候實際上是啟動了org.apache.spark.deploy.master.Master，下面我們就從這2個類入手，通過閱讀Spark的原始碼，瞭解Spark的啟動流程。

SQL語句（二十一）—— 觸發器（DML觸發器）

cti lock dml set sql語句事件 check約束服務 expand 觸發器一、觸發器概述(特殊的存儲過程) 定義: 在修改指定表值的數據時執行的存儲過程. 不同的是 : 執行存儲過程要使用EXEC語句來調用，而觸發器的執行不需要使用EX

sql pivot（行轉列）和unpivot（列轉行）的用法

sql clas 數據 sele core unp null col style 1、PIVOT用法（行轉列） select * from Table_Score as a pivot (sum(score) for a.name in ([語文],[數學],[外語],[

索引原理和SQL優化（轉載待整理）

索引的本質 MySQL官方對索引的定義為：索引（Index）是幫助MySQL高效獲取資料的資料結構。提取句子主幹，就可以得到索引的本質：索引是資料結構。我們知道，資料庫查詢是資料庫的最主要功能之一。我們都希望查詢資料的速度能儘可能的快，因此資料庫系統的設計者會從查詢演算法的角度進行優化。最

My SQL Case_3: 根據旅遊局資料練習My SQL語句（前6題）

練習1. 從dw_complain_total這個表中列出201509的投訴總量及男女分別投訴多少？ # 練習1. 從dw_complain_total這個表中列出201509的投訴總量及男女分別投訴多少？ # 注意：as用法，時間函式用法, 還有求的是總量 select sum(

spark 調優（官方文件）

1.序列化物件在進行網路傳輸或進行持久化時需要進行序列化，如果採用序列化慢或者消耗大量位元組的序列化格式，則會拖慢計算。 spark 提供了兩種序列化類庫 1）. Java serialization 靈活，但是很慢 2） Kryo serializati

spark SQL學習（認識spark SQL）

spark SQL初步認識

建立DataFrame

DataFrame常用操作

兩種方式將RDD轉換成DataFrame

1）基於反射方式

2）程式設計介面方式

DataFrame與RDD

相關推薦