Spark SQL：JDBC資料來源複雜綜合案例實戰

阿新 • • 發佈：2018-12-15

一、JDBC資料來源實戰

Spark SQL支援使用JDBC從關係型資料庫（比如MySQL）中讀取資料。讀取的資料，依然由DataFrame表示，可以很方便地使用Spark Core提供的各種運算元進行處理。
這裡有一個經驗之談，實際上用Spark SQL處理JDBC中的資料是非常有用的。比如說，你的MySQL業務資料庫中，有大量的資料，比如1000萬，然後，你現在需要編寫一個程式，對線上的髒資料某種複雜業務邏輯的處理，甚至複雜到可能涉及到要用Spark SQL反覆查詢Hive中的資料，來進行關聯處理。
那麼此時，用Spark SQL來通過JDBC資料來源，載入MySQL中的資料，然後通過各種運算元進行處理，是最好的選擇。因為Spark是分散式的計算框架，對於1000萬資料，肯定是分散式處理的。而如果你自己手工編寫一個Java程式，那麼不好意思，你只能分批次處理了，先處理2萬條，再處理2萬條，可能執行完你的Java程式，已經是幾天以後的事情了。

二、 JDBC資料來源實戰

Java版本
Map<String, String> options = new HashMap<String, String>();
options.put("url", "jdbc:mysql://spark1:3306/testdb");
options.put("dbtable", "students");
DataFrame jdbcDF = sqlContext.read().format("jdbc"). options(options).load();

Scala版本
val jdbcDF = sqlContext.read.format("jdbc").options( 
  Map("url" -> "jdbc:mysql://spark1:3306/testdb",
  "dbtable" -> "students")).load()

案例：查詢分數大於80分的學生資訊
grant all on testdb.* to ''@'spark1' with grant option;
flush privileges;

Spark SQL：JDBC資料來源複雜綜合案例實戰

一、JDBC資料來源實戰 Spark SQL支援使用JDBC從關係型資料庫（比如MySQL）中讀取資料。讀取的資料，依然由DataFrame表示，可以很方便地使用Spark Core提供的各種運算元

Spark SQL：Hive資料來源複雜綜合案例實戰

一、Hive資料來源實戰 Spark SQL支援對Hive中儲存的資料進行讀寫。操作Hive中的資料時，必須建立HiveContext，而不是SQLContext。HiveContext繼承自SQLContext，但是增加了在Hive元資料庫中查詢表，以及用Hi

第75課：Spark SQL基於網站Log的綜合案例實戰

內容： 1.案例概述 2.資料來源和分析一、案例概述 PV：頁面訪問數 UV：獨立訪問數二、資料來源和分析 packag

第79課：Spark SQL基於網站Log的綜合案例綜合程式碼和實際執行測試

內容： 1.熱門論壇板塊排名 2.綜合程式碼實戰和測試一、熱門論壇板塊排版建立表： spark.sql("createtable userlogs(date st

14.Spark SQL：UDAF自定義聚合函式實戰

UDAF自定義函式實戰 UDAF：User Defined Aggregate Function。使用者自定義聚合函式。是Spark 1.5.x引入的最新特性。 UDF，其實更多的是針對單行輸入，返

第80課：Spark SQL網站搜尋綜合案例實戰

內容： 1.案例分析 2.案例實戰一、案例分析專案：以京東找出搜尋平臺排名的產品，The hottest 元資料：date，u

第68課：Spark SQL通過JDBC操作MySQL

內容： 1.SparkSQL操作關係資料庫意義 2.SparkSQL操作關係資料庫一、通過SparkSQL操作關係資料庫意義 1.SparkSQL可以通過jdbc從傳統關係型資料庫中讀寫資料，讀取資料後直接生成DataFrame，然後在加上藉助

第69課：Spark SQL通過Hive資料來源實戰

內容： 1.Spark SQL操作Hive解析 2.SparkSQL操作Hive實戰一、Spark SQL操作Hive解析 1.在目前企業級大資料Spark開發的時候，

12.Spark SQL：開窗函式以及top3銷售額統計案例實戰

Spark 1.4.x版本以後，為Spark SQL和DataFrame引入了開窗函式，比如最經典，最常用的，row_number()，可以讓我們實現分組取topn的邏輯。案例：統計每個種類的銷售額排名前3的產品java版本package cn.spark.study.s

Spark SQL 筆記(7)—— DataFrame API操作案例

1 測試資料 stu.txt 1|Anaa|111111|[email protected] 2|Bob|22222|[email protected] 3|Candy|333333

Spark SQL之外部資料來源

概述從Spark 1.2版本開始，Spark SQL正式支援外部資料來源。它可以通過DataFrame介面對各種資料來源進行操作，例如orc,parquet,json,hive,jdbc,avro等。它既可以通過轉換成RDD進行操作，也可以被建立為一個臨時檢視。將外部資料讀入後建立

基於Spark SQL 讀寫Oracle 的簡單案例分析常見問題

1 概述本文主要內容包含Spark SQL讀寫Oracle表資料的簡單案例，並針對案例中比較常見的幾個問題給出解決方法。最後從常見的java.lang.ClassNotFoundException（無法找到驅動類）的異常問題出發，分析相關的幾種解決方

[2.6]Spark SQL 操作各種資料來源筆記

參考 spark sql操作各種資料來源的資料流轉 : 各種資料來源的輸入 => RDD(lines) =>RDD(Rows) => DataFrame(註冊臨時表) => 分析與過濾（各種sql操作、機器學習等）=

Spark SQL 本地開發環境搭建和案例分析

1_Spark APIs 的演變 Spark SQL，作為Apache Spark大資料框架的一部分，主要用於結構化資料處理和對Spark資料執行類SQL的查詢。通過Spark SQL，可以實現多種大針資料業務，比如對PG/TG級別的資料分析、分析預測並推薦、

第91課：SparkStreaming基於Kafka Direct案例實戰和內幕原始碼解密 java.lang.ClassNotFoundException 踩坑解決問題詳細內幕版本

第91課：SparkStreaming基於Kafka Direct案例實戰和內幕原始碼解密 /* * *王家林老師授課http://weibo.com/ilovepains */ 每天晚上20：00YY頻道現場授課頻道68917580 1、作業內容：SparkS

Flink SQL 核心概念剖析與程式設計案例實戰

本次，我們從 0 開始逐步剖析 Flink SQL 的來龍去脈以及核心概念，並附帶完整的示例程式，希望對大家有幫助！ ## 本文大綱 ![](https://imgkr2.cn-bj.ufileos.com/ee018625-f90d-4159-b77c-703451cf56d9.png?UCloudPu

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

spark sql jdbc資料來源多種輸出方式

package com.ws.jdbc import java.util.Properties import org.apache.spark.sql.{DataFrame, SparkSession} /** * spark sql jdbc資料來源 */ object JdbcD

Spark修煉之道（進階篇）——Spark入門到精通：第十節 Spark SQL案例實戰（一）

作者：周志湖放假了，終於能抽出時間更新部落格了……. 1. 獲取資料本文通過將github上的Spark專案git日誌作為資料，對SparkSQL的內容進行詳細介紹資料獲取命令如下： [[email protected] spa

Spark SQL：JDBC資料來源複雜綜合案例實戰

一、JDBC資料來源實戰

二、 JDBC資料來源實戰

相關推薦