Spark SQL入門

阿新 • • 發佈：2018-11-01

Spark SQL

將SQL語句轉為底層的Spark作業執行，支援大量資料分析演算法。

資料抽象DataFrame

載入資料來源生成結構化資料
DataFrame的建立

import org.apache.spark.sql.SparkSession
import spark.implicits._   //將底層資料來源隱式轉為DataFrame
val spark = SparkSession.builder().getOrCreate()
val df = spark.read.json("file:///usr/local/spark.examples/src/main/resources/people.json")

DataFrame常用操作

df.show()        //顯示資料表
df.printSchema()		//列印模式
df.select(df("name"),df("age")).show()	//查詢
df.filter(df("age")>20).show() //過濾
df.groupBy(df("age"))	//分組聚合
df.sort(df("age"))  //升序
df.rdd.saveAsTextFile("....") //儲存為檔案

RDD轉換為DataFrame

反射機制推斷RDD模式
txt檔案
在這裡插入圖片描述

import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder
import org.apache.spark.sql.Encoder
import org.apache.spark.sql.SparkSession
import spark.implicits._   //將底層資料來源隱式轉為DataFrame
case Person(name:String,age:Long)    //定義要轉換成的DF類
val peopleDF = spark.sparkContext.textFile("file:///usr/local/spark.examples/src/main/resources/people.json").map(line => line.split(",")).map(attributes => Person(attributes(0),attributes(1).trim.toInt)).toDF
//spark是上段程式碼的SparkSession物件，載入檔案成為RDD，分割"，"，RDD是一個個Array，把每個Array生成物件Person，轉為DF
peopleDF.createOrReplaceTempView("people")  //註冊為臨時表
val resultDF = spark.sql(“select name,age from people where age >20”) //使用SQL語句進行查詢
resultDF.show()

結果如下：
在這裡插入圖片描述
使用程式設計方式定義RDD模式
無法提前 cass class的情況
三個步驟

製作“表頭”
製作“表的記錄”
拼裝表頭和記錄

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
//製作欄位 StructField 第一個引數數字段名，第二個是型別，第三個是是否可null
val fields = Array(StructField("name",StringType,true), StructField("age",IntegerType,true))
val schema = StructType(fields) //製作成模式
//載入資料來源成為RDD
...
//製作表中記錄 line =>Array => Row
val rowRDD = peopleRDD.map(_.split(",")).map(attributes => Row(attributes(0), attributes(1).trim.toInt))
//拼裝
val peopleDF = spark.createDataFrame(rowRDD, schema)

通過JDBC連線資料庫

 //帶引數啟動spark-shell
./bin/spark-shell  --jars /usr/local/spark/jars/mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar  --driver-class-path /usr/local/spark/jars/mysql-connector-java-5.1.40/mysql-connector-java-5.1.46-bin.jar
 //讀   
 val jdbcDF = spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.jdbc.Driver").option("dbtable", "student").option("user", "root").option("password", "hadoop").load()   
 
//寫
import java.util.Properties
import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
 
//下面我們設定兩條資料表示兩個學生資訊
val studentRDD = spark.sparkContext.parallelize(Array("3 Rongcheng M 26","4 Guanhua M 27")).map(_.split(" ")) 
//下面要設定模式資訊
val schema = StructType(List(StructField("id", IntegerType, true),StructField("name", StringType, true),StructField("gender", StringType, true),StructField("age", IntegerType, true)))
//下面建立Row物件，每個Row物件都是rowRDD中的一行
val rowRDD = studentRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).trim, p(3).toInt))
//建立起Row物件和模式之間的對應關係，也就是把資料和模式對應起來
val studentDF = spark.createDataFrame(rowRDD, schema)
//下面建立一個prop變數用來儲存JDBC連線引數
val prop = new Properties()
prop.put("user", "root") //表示使用者名稱是root
prop.put("password", "hadoop") //表示密碼是hadoop
prop.put("driver","com.mysql.jdbc.Driver") //表示驅動程式是com.mysql.jdbc.Driver
//下面就可以連線資料庫，採用append模式，表示追加記錄到資料庫spark的student表中
studentDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/spark", "spark.student", prop)

Spark SQL入門

Spark SQL 將SQL語句轉為底層的Spark作業執行，支援大量資料分析演算法。資料抽象DataFrame 載入資料來源生成結構化資料 DataFrame的建立 import org.apache.spark.sql.SparkSession import spark

Spark SQL入門基礎

Spark SQL簡介從Shark說起 Shark即hive on Spark,為了實現與Hive相容，Shark在HiveQL方面重用了Hive中HiveQL的解析、邏輯執行計劃、翻譯執行計劃優化等邏輯，可以近似認為將物理執行計劃從MapReduce

Spark SQL入門用法與原理分析

sparkSQL是為了讓開發人員擺脫自己編寫RDD等原生Spark程式碼而產生的，開發人員只需要寫一句SQL語句或者呼叫API，就能生成（翻譯成）對應的SparkJob程式碼並去執行，開發變得更簡潔注意：本文全部基於SparkSQL1.6 一. API Spark SQ

[Spark SQL01]Spark SQL入門

1、SQL結合spark有兩條線：Spark SQL和Hive on Spark（還在開發狀態，不穩定，暫時不建議使用）。#Hive on Spark是在Hive中的，使用Spark作為hive的執行引擎，只需要在hive中修改一個引數即可：# set hive.execut

10.spark sql之快速入門

繼續 ssi org 特性 splay ssa select 開始 pytho 前世今生 Hive&Shark ??隨著大數據時代的來臨，Hadoop風靡一時。為了使熟悉RDBMS但又不理解MapReduce的技術人員快速進行大數據開發，Hive應運而生。Hive是

spark入門系列教程三——spark sql(一）

Spark SQL是用於結構化資料處理的Spark模組，可以通過sql、dataset、dataframe與spark sql進行互動。更多理論性知識請移步官網http://spark.apache.org/docs/2.3.1/sql-programming-guide.html 在spark 2.0以前

Spark修煉之道（進階篇）——Spark入門到精通：第十節 Spark SQL案例實戰（一）

作者：周志湖放假了，終於能抽出時間更新部落格了……. 1. 獲取資料本文通過將github上的Spark專案git日誌作為資料，對SparkSQL的內容進行詳細介紹資料獲取命令如下： [[email protected] spa

Spark修煉之道（進階篇）——Spark入門到精通：第十三節 Spark Streaming—— Spark SQL、DataFrame與Spark Streaming

主要內容 Spark SQL、DataFrame與Spark Streaming 1. Spark SQL、DataFrame與Spark Streaming import org.apache.spark.SparkConf import org

Spark修煉之道（進階篇）——Spark入門到精通：第九節 Spark SQL執行流程解析

1.整體執行流程使用下列程式碼對SparkSQL流程進行分析，讓大家明白LogicalPlan的幾種狀態，理解SparkSQL整體執行流程 // sc is an existing SparkContext. val sqlContext = new or

spark從入門到放棄三十三:Spark Sql(6)hive sql 案例查詢分數大於80分的同學

DROP TABLE IF EXISTS student_info"); sqlContext.sql("CREATE TABLE IF NOT EXISTS student_info (name STRING ,age INT)"); System.out.println(

spark從入門到放棄三十二:Spark Sql(5)hive sql 簡述

1 簡述 Spark Sql 支援對Hive 中儲存的資料進行讀寫。操作Hive中的資料時，可以建立HiveContext,而不是SqlContext.HiveContext 繼承自SqlContext,但是增加了在Hive元資料庫中查詢表，以及用Hi

【原創 Hadoop&Spark 動手實踐 5】Spark 基礎入門，集群搭建以及Spark Shell

min util man 操作 because tro txt library all Spark 基礎入門，集群搭建以及Spark Shell 主要借助Spark基礎的PPT，再加上實際的動手操作來加強概念的理解和實踐。

Spark-Sql之DataFrame實戰詳解

集合 case 編程方式優化所表 register 操作數 print ava 1、DataFrame簡介：在Spark中，DataFrame是一種以RDD為基礎的分布式數據據集，類似於傳統數據庫聽二維表格，DataFrame帶有Schema元信息，即DataFram

Spark SQL編程指南（Python）【轉】

res 平臺 per 它的 split 執行文件的分組不同轉自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允許我們在Spark環境中使用SQL或者Hive SQL執行關系型查詢。它的核

Spark SQL 源代碼分析之Physical Plan 到 RDD的詳細實現

local 過濾右連接操作 images img mem sans 觀察 /** Spark SQL源代碼分析系列文章*/ 接上一篇文章Spark SQL Catalyst源代碼分析之Physical Plan。本文將介紹Physical Plan的toRDD的

spark-sql case when 問題

spark 大數據 hadoop spark-sqlSELECT CASE (pmod(datediff(f0.`4168388__c_0`,‘1970-01-04‘),7)+1) WHEN ‘1‘ THEN ‘星期日‘ WHEN ‘2‘ THEN ‘星期一‘ WHEN ‘3‘ THEN ‘星期二‘ WHE

spark一些入門資料

ram 代碼 try off archive data 對話框 work 版本號 spark一些入門資料 A Scala Tutorial for Java Programmers http://docs.scala-lang.org/tutoria

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合調用hive

type with hql lac 命令 val driver spark集群 string 1.安裝Hive 如果想創建一個數據庫用戶，並且為數據庫賦值權限，可以參考：http://blog.csdn.net/tototuzuoquan/article/details/5

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

ati been -m displays txt -a 版本 ava form Spark SQL是處理結構化數據的Spark模塊。它提供了DataFrames這樣的編程抽象。同一時候也能夠作為分布式SQL查詢引擎使用。 DataFrames D

Spark SQL

mapr bsp 單機模塊 ont 比較分布整合技術 1.1. Spark SQL概述 1.1.1. 什麽是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了一個編程抽象叫做DataFrame並且作為分布式SQL查詢引

Spark SQL入門

Spark SQL

資料抽象DataFrame

RDD轉換為DataFrame

相關推薦