PySpark 入門：通過JDBC連線資料庫(DataFrame)

阿新 • • 發佈：2022-03-29

這裡以關係資料庫MySQL為例。首先，本部落格教程（Ubuntu 20.04 安裝MySQL 8.X），在Linux系統中安裝好MySQL資料庫。這裡假設你已經成功安裝了MySQL資料庫。下面我們要新建一個測試Spark程式的資料庫，資料庫名稱是“spark”，表的名稱是“student”

請執行下面命令在Linux中啟動MySQL資料庫，並完成資料庫和表的建立，以及樣例資料的錄入：

service mysql start
mysql -u root -p
# 螢幕會提示你輸入密碼

輸入密碼後，你就可以進入“mysql>”命令提示符狀態，然後就可以輸入下面的SQL語句完成資料庫和表的建立：

mysql> create database spark;
mysql> use spark;
mysql> create table student (id int(4), name char(20), gender char(4), age int(4));
mysql> alter table student change id id int auto_increment primary key;
mysql> insert into student values(1,'Xueqian','F',23);
mysql> insert into student values(2,'Weiliang','M',24);
mysql> select * from student;

上面已經建立好了我們所需要的MySQL資料庫和表，下面我們編寫Spark應用程式連線MySQL資料庫並且讀寫資料。

Spark支援通過JDBC方式連線到其他資料庫獲取資料生成DataFrame。

首先，請進入Linux系統（本教程統一使用hadoop使用者名稱登入），開啟火狐（FireFox）瀏覽器，下載一個MySQL的JDBC驅動（下載）。

JDBC 驅動下載方法一：

解壓，把 mysql-connector-java-8.0.28.jar 貼上到 /usr/local/spark/jars 中，這樣便完成了驅動的匯入

JDBC 驅動下載方法二：

在火狐瀏覽器中下載時，一般預設儲存在hadoop使用者的當前工作目錄的“下載”目錄下，所以，可以開啟一個終端介面，輸入下面命令檢視：

cd ~
cd Downloads

就可以看到剛才下載到的MySQL的JDBC驅動程式，檔名稱為 mysql-connector-java-8.0.28.tar.gz（你下載的版本可能和這個不同）。現在，使用下面命令，把該驅動程式拷貝到 Spark 的安裝目錄下：

sudo tar -zxf ~/Downloads/mysql-connector-java-8.0.28.tar.gz -C /usr/local/spark/jars
cd /usr/local/spark/jars
ls

這時就可以在/usr/local/spark/jars目錄下看到這個驅動程式檔案所在的資料夾 mysql-connector-java-8.0.28，進入這個資料夾，就可以看到驅動程式檔案 mysql-connector-java-8.0.28.jar。
請輸入下面命令啟動已經安裝在Linux系統中的mysql資料庫（如果前面已經啟動了MySQL資料庫，這裡就不用重複啟動了）。

service mysql start

下面，我們要啟動一個pyspark，而且啟動的時候，要附加一些引數。啟動pyspark時，必須指定mysql連線驅動jar包。

cd /usr/local/spark
./bin/pyspark \
--jars /usr/local/spark/jars/mysql-connector-java-8.0.28.jar

上面的命令列中，在一行的末尾加入斜槓\，是為了告訴spark-shell，命令還沒有結束。

啟動進入pyspark以後，可以執行以下命令連線資料庫，讀取資料，並顯示：

jdbcDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.cj.jdbc.Driver").option("dbtable", "student").option("user", "root").option("password", "password").load()

下面我們再來看一下如何往MySQL中寫入資料。
為了看到MySQL資料庫在Spark程式執行前後發生的變化，我們先在Linux系統中新建一個終端，使用下面命令檢視一下MySQL資料庫中的資料庫spark中的表student的內容：

mysql>  use spark;
Database changed
 
mysql> select * from student;
//上面命令執行後返回下面結果
+------+----------+--------+------+
| id   | name     | gender | age  |
+------+----------+--------+------+
|    1 | Xueqian  | F      |   23 |
|    2 | Weiliang | M      |   24 |
+------+----------+--------+------+

現在我們開始在pyspark中編寫程式，往spark.student表中插入兩條記錄。
下面，我們要啟動一個pyspark，而且啟動的時候，要附加一些引數。啟動pyspark時，必須指定mysql連線驅動jar包（如果你前面已經採用下面方式啟動了pyspark，就不需要重複啟動了）：

cd /usr/local/spark
./bin/pyspark \
--jars /usr/local/spark/jars/mysql-connector-java-8.0.28.jar

上面的命令列中，在一行的末尾加入斜槓\，是為了告訴spark-shell，命令還沒有結束。

啟動進入pyspark以後，可以執行以下命令連線資料庫，寫入資料，程式如下（你可以把下面程式一條條拷貝到pyspark中執行）

>>> from pyspark.sql.types import Row
>>> from pyspark.sql.types import StructType
>>> from pyspark.sql.types import StructField
>>> from pyspark.sql.types import StringType
>>> from pyspark.sql.types import IntegerType
>>> studentRDD = spark.sparkContext.parallelize(["3 Rongcheng M 26","4 Guanhua M 27"]).map(lambda line : line.split(" "))
//下面要設定模式資訊
>>> schema = StructType([StructField("name", StringType(), True),StructField("gender", StringType(), True),StructField("age",IntegerType(), True)])
>>> rowRDD = studentRDD.map(lambda p : Row(p[1].strip(), p[2].strip(),int(p[3])))
//建立起Row物件和模式之間的對應關係，也就是把資料和模式對應起來
>>> studentDF = spark.createDataFrame(rowRDD, schema)
>>> prop = {}
>>> prop['user'] = 'root'
>>> prop['password'] = 'password'
>>> prop['driver'] = "com.mysql.cj.jdbc.Driver"
>>> studentDF.write.jdbc("jdbc:mysql://localhost:3306/spark",'student','append', prop)

在pyspark中執行完上述程式後，我們可以看一下效果，看看MySQL資料庫中的spark.student表發生了什麼變化。請在剛才的另外一個視窗的MySQL命令提示符下面繼續輸入下面命令：

mysql> select * from student;
+------+-----------+--------+------+
| id   | name      | gender | age  |
+------+-----------+--------+------+
|    1 | Xueqian   | F      |   23 |
|    2 | Weiliang  | M      |   24 |
|    3 | Rongcheng | M      |   26 |
|    4 | Guanhua   | M      |   27 |
+------+-----------+--------+------+
4 rows in set (0.00 sec)

PySpark 入門：通過JDBC連線資料庫(DataFrame)

JDBC 驅動下載方法一：

JDBC 驅動下載方法二：

PySpark 入門：通過JDBC連線資料庫(DataFrame)

Databricks 第三篇：通過JDBC連線資料庫

前臺獲取使用者資訊，通過JDBC連線資料庫判斷，登入注意事項

學習記錄：使用JDBC連線資料庫報NullPointerException。

Java通過JDBC實現資料庫的連線

JavaWeb通過JDBC連線MySQL資料庫

Oracle通過sqlplus連線資料庫的方式

使用jdbc連線資料庫

JDBC連線資料庫

JDBC連線資料庫的步驟詳解

java 通過jdbc 連線hive2 使用kerberos 認證

【JDBC連線資料庫】

jdbc連線資料庫的步驟

java-JDBC連線資料庫並進行SQL操作

JDBC連線資料庫工具類

Java使用jdbc連線資料庫

JDBC 連線資料庫步驟

Jdbc連線資料庫的兩種方式

JDBC連線資料庫--各類說明

jdbc連線資料庫問題解決

PySpark 入門：通過JDBC連線資料庫(DataFrame)

JDBC 驅動下載方法一：

JDBC 驅動下載方法二：

相關推薦