spark 系列之四 Spark查詢關係型資料庫

阿新 • • 發佈：2020-12-31

spark是一套資料處理框架，資料分為靜態資料和實時資料（sparkStreaming）

因為spark本身是一個數據處理的框架，本身不負責生產資料和儲存資料。

所以需要一些資料來源的接入。本文主要說的是把關係型資料庫mysql作為資料來源。

測試環境是在本地的mysql資料，需要本地已經安裝了mysql資料庫，並且根據本地mysql的版本，下載相應的驅動。

import org.apache.spark.sql.SparkSession

object SparkJDBC {
  def main(args: Array[String]): Unit = {
    val sparkSession  
= SparkSession.builder()
      .appName("TextFile")
      .master("local")
      .getOrCreate()
    /**
     * 成功連線mysql資料庫
     */
    val jdbcDF = sparkSession.read.format("jdbc")
        .option("url", "jdbc:mysql://localhost:3306/spark?useUnicode=true&characterEncoding=utf8&serverTimezone=GMT")
        .option( 
"driver","com.mysql.cj.jdbc.Driver")
        .option("dbtable", "student")
        .option("user", "root")
        .option("password", "123456").load()
    jdbcDF.show()

  }
}

本地mysql資料庫的驅動pom.xml 檔案如下

        <dependency>
            <groupId>mysql</groupId>
            <artifactId 
>mysql-connector-java</artifactId>
            <version>8.0.21</version>
        </dependency>

spark 系列之四 Spark查詢關係型資料庫

spark是一套資料處理框架，資料分為靜態資料和實時資料（sparkStreaming）因為spark本身是一個數據處理的框架，本身不負責生產資料和儲存資料。

Spark 系列（四）—— RDD常用運算元詳解

一、Transformation spark 常用的 Transformation 運算元如下表： Transformation 運算元 Meaning（含義）

spark 系列之六 SparkStreaming資料來源之socket流

SparkStreaming 這個名字起的很有意思，就是隻要能流式讀取的資料，都可以作為SparkStreaming的資料來源

spark 系列之七 SparkStreaming資料來源之kafka流

突然感覺kafka跟socket有點像，不過kafka好像具備更多的功能，是一個經典的消費者生產者模式。

鴻蒙開發實戰系列之四：資料庫NoSQL-ObjectBox的使用

技術標籤：鴻蒙javaandroid移動開發鴻蒙開發實戰系列之一：鴻蒙開發實戰系列之一：圓角

ocs部署實驗系列之四——安裝exchange um伺服器

安裝exchange 伺服器要求：一臺加入域的伺服器系統版本：Windows server 2003R2 SP2 安裝好，MMC3.0,、net framework 2.0 sp2,mircosoft Windows installer 4.5等基本元件

活動目錄系列之四：單域環境的實現（多站點）--基本配置

在上期我們學習了活動目錄系列之二：單域環境的實現（單站點），當時我們實現的是在一個站點的情況下。下面我們來看這樣一個場景：**一個企業總部在北京，在上海和廣東各有其辦公區域，要求實現活動目錄域

【OCR技術系列之四】基於深度學習的文字識別（3755個漢字）

【OCR技術系列之四】基於深度學習的文字識別（3755個漢字）上一篇提到文字資料集的合成，現在我們手頭上已經得到了3755個漢字（一級字型檔）的印刷體影象資料集，我們可以利用它們進行接下來的3755個漢字的識別系

Docker系列之四：建立掛載nginx、mysql、redis、tomcta、ftp容器

技術標籤：dockermysql容器nginxredis 目錄 6 建立容器並掛載對映目錄 6.1 建立容器命令選項

【spark系列8】spark delta讀資料實現分析

技術標籤：大資料大資料spark 背景本文基於delta 0.7.0 spark 3.0.1 我們之前的spark delta寫操作ACID事務前傳–寫檔案基礎類FileFormat/FileCommitProtocol分析，spark delta寫操作ACID事務實現分析分析了delt

【spark系列10】spark logicalPlan Statistics (邏輯計劃階段的統計資訊)

技術標籤：大資料大資料spark 背景本文版本是spark 3.0.1 分析邏輯階段的統計資訊，對於邏輯階段的優化也是很重要的，比如broadcathashJoin,dynamic partitions pruning，本文分析一下spark 是怎麼獲取stastat

『跟著雨哥學AI』系列之四：詳解飛槳框架高階用法

課程簡介： “跟著雨哥學AI”是百度飛槳開源框架近期針對高層API推出的系列課。本課程由多位資深飛槳工程師精心打造，不僅提供了從資料處理、到模型組網、模型訓練、模型評估和推理部署全流程講解；還提供了豐富

ClickHouse學習系列之四【副本&分片部署說明】

背景　　以前介紹過ClickHouse相關的系列文章，現在繼續說明。本文開始說明ClickHouse的副本與分片，和其他資料庫一樣，ClickHouse也會出現單節點故障和單節點資源到達上限的情況。所以針對上面的2個問題，就出現了

hadoop系列之四：Hbase的安裝與使用

如果是校友，選大資料分析的課，請不要直接複製，這是我的報告，老師還沒有考核。

Spark 系列（十四）—— Spark Streaming 基本操作

一、案例引入這裡先引入一個基本的案例來演示流的建立：獲取指定埠上的資料並進行詞頻統計。專案依賴和程式碼實現如下：

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點：

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例

Spark學習之路四、Spark的廣播變數和累加器

目錄一、概述二、廣播變數broadcast variable 2.1　為什麼要將變數定義成廣播變數？

Spark原始碼系列（四）圖解作業生命週期

這一章我們探索了Spark作業的執行過程，但是沒把整個過程描繪出來，好，跟著我走吧，let you know！

Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明 Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下：

spark 系列之四 Spark查詢關係型資料庫

相關推薦