Databricks 第三篇：通過JDBC連線資料庫

阿新 • • 發佈：2021-01-08

Databricks Runtime 包含Azure SQL 資料庫的 JDBC 驅動程式，本文介紹如何使用資料幀 API 連線到使用 JDBC 的 SQL 資料庫，通過 JDBC 介面進行的讀取操作和更新操作。

在Databricks的Notebook中，spark是Databricks內建的一個SparkSession，可以通過該SparkSession來建立DataFrame、引用DataFrameReader和DataFrameWriter等。

一，建立JDBC URL

本文適用Python語言和JDBC驅動程式來連線Azure SQL Database，

jdbcHostname = " 
Azure SQL Database"
jdbcDatabase = "db_name"
jdbcPort = 1433
jdbcUsername="user_name"
jdbcPassword="user_password"

jdbcUrl = "jdbc:sqlserver://{0}:{1};database={2}".format(jdbcHostname, jdbcPort, jdbcDatabase)
connectionProperties = {
  "user" : jdbcUsername,
  "password" : jdbcPassword,
  "driver" : " 
com.microsoft.sqlserver.jdbc.SQLServerDriver"
}

二，把查詢向下推送到資料庫引擎

可把整個查詢或表向下推送到資料庫，且只返回結果。table引數標識要讀取的 JDBC 表。

spark.read.jdbc(url, table, column=None, lowerBound=None, upperBound=None, numPartitions=None, predicates=None, properties=None)

引數註釋：

url：JDBC URL
table：表名或查詢
column、numPartitions、lowerBound和upperBound：用於指定分割槽的列名，分割槽的數量，分割槽的列的最小值和最大值

predicates：謂詞，用於對資料進行過濾，類似於Where子句
properties：JDBC資料庫連線引數的字典

1，向下推送表

如果把table設定為表名，那麼表示查詢整個表。

pushdown_query = "table_name"
df = spark.read.jdbc(url=jdbcUrl, table=pushdown_query, properties=connectionProperties)
display(df)

對查詢的結果進行投影和過濾：

spark.read.jdbc(jdbcUrl, table=pushdown_query, connectionProperties).select("carat", "cut", "price").where("cut = 'Good'")

2，向下推送查詢

如果向下推送查詢，那麼需要採用下方的格式：(query) data_alias

pushdown_query = "(select * from employees where emp_no < 10008) emp_alias"
df = spark.read.jdbc(url=jdbcUrl, table=pushdown_query, properties=connectionProperties)
display(df)

三，向下推送更新

通過JDBC，把DataFrame的內容儲存到外部資料表中：

spark.write.jdbc(url, table, mode=None, properties=None)

引數註釋：

url：JDBC Url
table：外部資料庫的表名
mode：資料更新的模式，append、overwrite、ignore、error（預設，如果資料存在，丟擲異常）
properties：JDBC資料庫連線引數的字典

參考文件：

Databricks 第三篇：通過JDBC連線資料庫

PySpark 入門：通過JDBC連線資料庫(DataFrame)

這裡以關係資料庫MySQL為例。首先，本部落格教程（Ubuntu 20.04 安裝MySQL 8.X），在Linux系統中安裝好MySQL資料庫。這裡假設你已經成功安裝了MySQL資料庫。下面我們要新建一個測試Spark程式的資料庫，資料庫名稱是“

Java Stream函式語言程式設計第三篇：管道流結果處理

一、Java Stream管道資料處理操作在本號之前寫過的文章中，曾經給大家介紹過 Java Stream管道流是用於簡化集合類元素處理的java API。在使用的過程中分為三個階段。在開始本文之前，我覺得仍然需要給一些新朋友介紹

跟我學 Spring Cloud | 第三篇：服務的提供與Feign呼叫

Springboot: 2.1.6.RELEASE SpringCloud: Greenwich.SR1 如無特殊說明，本系列教程全採用以上版本

003 第三篇：解析庫之re、beautifulsoup、pyquery

閱讀目錄一介紹二基本使用三遍歷文件樹四搜尋文件樹五修改文件樹六總結

Databricks 第5篇：Databricks檔案系統（DBFS）

Databricks 檔案系統 (DBFS，Databricks File System) 是一個裝載到 Azure Databricks 工作區的分散式檔案系統，可以在 Azure Databricks 群集上使用。一個儲存物件是一個具有特定格式的檔案，不同的格式具有不同的

匹配度查詢 java_玩轉Mysql系列第11篇：深入瞭解連線查詢及原理

技術標籤：匹配度查詢 java 打算提升sql技能的，可以加我微信itsoku，帶你成為sql高手。

Databricks 第7篇：管理Secret

有時，訪問資料要求您通過JDBC對外部資料來源進行身份驗證，可以使用Azure Databricks Secret來儲存憑據，並在notebook和job中引用它們，而不是直接在notebook中輸入憑據。

Databricks 第8篇：把Azure Data Lake Storage Gen2 (ADLS Gen 2)掛載到DBFS

DBFS使用dbutils實現儲存服務的裝載（mount、掛載），使用者可以把Azure Data Lake Storage Gen2和Azure Blob Storage 賬戶裝載到DBFS中。mount是data lake storage和 blob storage的指標，因此資料不會同步到本地。