pyspark對Mysql資料庫進行讀寫的實現

阿新 • • 發佈：2020-12-31

pyspark是Spark對Python的api介面，可以在Python環境中通過呼叫pyspark模組來操作spark，完成大資料框架下的資料分析與挖掘。其中，資料的讀寫是基礎操作，pyspark的子模組pyspark.sql 可以完成大部分型別的資料讀寫。文字介紹在pyspark中讀寫Mysql資料庫。

1 軟體版本

在Python中使用Spark，需要安裝配置Spark，這裡跳過配置的過程，給出執行環境和相關程式版本資訊。

win10 64bit
java 13.0.1
spark 3.0
python 3.8
pyspark 3.0
pycharm 2019.3.4

2 環境配置

pyspark連線Mysql是通過java實現的，所以需要下載連線Mysql的jar包。

下載地址

在這裡插入圖片描述

選擇下載Connector/J，然後選擇作業系統為Platform Independent，下載壓縮包到本地。

在這裡插入圖片描述

然後解壓檔案，將其中的jar包mysql-connector-java-8.0.19.jar放入spark的安裝目錄下，例如D:\spark\spark-3.0.0-preview2-bin-hadoop2.7\jars。

在這裡插入圖片描述

環境配置完成！

3 讀取Mysql

指令碼如下：

from pyspark.sql import SQLContext,SparkSession

if __name__ == '__main__':
  # spark 初始化
  spark = SparkSession. \
    Builder(). \
    appName('sql'). \
    master('local'). \
    getOrCreate()
  # mysql 配置(需要修改)
  prop = {'user': 'xxx','password': 'xxx','driver': 'com.mysql.cj.jdbc.Driver'}
  # database 地址(需要修改)
  url = 'jdbc:mysql://host:port/database'
  # 讀取表
  data = spark.read.jdbc(url=url,table='tb_newCity',properties=prop)
  # 列印data資料型別
  print(type(data))
  # 展示資料
  data.show()
  # 關閉spark會話
  spark.stop()

注意點：
prop引數需要根據實際情況修改，文中使用者名稱和密碼用xxx代替了，driver引數也可以不需要；
url引數需要根據實際情況修改，格式為jdbc:mysql://主機:埠/資料庫；
通過呼叫方法read.jdbc進行讀取，返回的資料型別為spark DataFrame；

執行指令碼，輸出如下：

在這裡插入圖片描述

4 寫入Mysql

指令碼如下：

import pandas as pd
from pyspark import SparkContext
from pyspark.sql import SQLContext,Row

if __name__ == '__main__':
  # spark 初始化
  sc = SparkContext(master='local',appName='sql')
  spark = SQLContext(sc)
  # mysql 配置(需要修改)
  prop = {'user': 'xxx','driver': 'com.mysql.cj.jdbc.Driver'}
  # database 地址(需要修改)
  url = 'jdbc:mysql://host:port/database'

  # 建立spark DataFrame
  # 方式1：list轉spark DataFrame
  l = [(1,12),(2,22)]
  # 建立並指定列名
  list_df = spark.createDataFrame(l,schema=['id','value']) 
  
  # 方式2：rdd轉spark DataFrame
  rdd = sc.parallelize(l) # rdd
  col_names = Row('id','value') # 列名
  tmp = rdd.map(lambda x: col_names(*x)) # 設定列名
  rdd_df = spark.createDataFrame(tmp) 
  
  # 方式3：pandas dataFrame 轉spark DataFrame
  df = pd.DataFrame({'id': [1,2],'value': [12,22]})
  pd_df = spark.createDataFrame(df)

  # 寫入資料庫
  pd_df.write.jdbc(url=url,table='new',mode='append',properties=prop)
  # 關閉spark會話
  sc.stop()

注意點：

prop和url引數同樣需要根據實際情況修改；

寫入資料庫要求的物件型別是spark DataFrame，提供了三種常見資料型別轉spark DataFrame的方法；

通過呼叫write.jdbc方法進行寫入，其中的model引數控制寫入資料的行為。

model 引數解釋

error 預設值，原表存在則報錯

ignore 原表存在，不報錯且不寫入資料

append 新資料在原錶行末追加

overwrite 覆蓋原表

model	引數解釋
error	預設值，原表存在則報錯
ignore	原表存在，不報錯且不寫入資料
append	新資料在原錶行末追加
overwrite	覆蓋原表

5 常見報錯

Access denied for user …

在這裡插入圖片描述

原因：mysql配置引數出錯
解決辦法：檢查user,password拼寫，檢查賬號密碼是否正確，用其他工具測試mysql是否能正常連線，做對比檢查。

No suitable driver

pyspark對Mysql資料庫進行讀寫的實現

原因：沒有配置執行環境
解決辦法：下載jar包進行配置，具體過程參考本文的2 環境配置。

到此這篇關於pyspark對Mysql資料庫進行讀寫的實現的文章就介紹到這了,更多相關pyspark Mysql讀寫內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

pyspark對Mysql資料庫進行讀寫的實現

pyspark是Spark對Python的api介面，可以在Python環境中通過呼叫pyspark模組來操作spark，完成大資料框架下的資料分析與挖掘。其中，資料的讀寫是基礎操作，pyspark的子模組pyspark.sql 可以完成大部分型別的資料讀寫

Python使用Pandas庫實現MySQL資料庫的讀寫

本次分享將介紹如何在Python中使用Pandas庫實現MySQL資料庫的讀寫。首先我們需要了解點ORM方面的知識

docker 搭建Mycat環境實現Mysql資料庫的讀寫分離

搭建Mycat環境 1.2 搭建Mycat環境 1.2.1 獲取資源#先獲取mycat包 mkdir -p /data/mycat cd /data/mycat

Spring Boot實戰（三）：Spring Boot使用Spring Data Jpa對MySQL資料庫進行CRUD操作

Spring Boot實戰（一）：只需兩步！Eclipse+Maven快速構建第一個Spring Boot專案構建了第一個Spring Boot專案。

python對 MySQL 資料庫進行增刪改查的指令碼

# -*- coding: utf-8 -*- import pymysql import xlrd # import codecs #連線資料庫 conn = pymysql.connect(host=\'127.0.0.1\',port=3306,user=\'root\',passwd=\'\',db=\'test_hvr\',charset=\'utf8\')

詳解Python利用configparser對配置檔案進行讀寫操作

簡介想寫一個登入註冊的demo，但是以前的demo資料都寫在程式裡面，每一關掉程式資料就沒儲存住。。

對成員變數進行讀寫和封裝

技術標籤：educoderjava封裝什麼是封裝？封裝：就是隱藏物件的屬性和實現細節，僅對外提供公共訪問方式。封裝時的許可權控制符區別如下:

【轉】Spring Boot實戰（三）：Spring Boot使用Spring Data Jpa對MySQL資料庫進行CRUD操作

Spring Data Jpa JPA是什麼？看看百度怎麼說。JPA是Java Persistence API的簡稱，中文名Java持久層API，是JDK 5.0註解或XML描述物件－關係表的對映關係，並將執行期的實體物件持久化到資料庫中。

AOP實現mysql的主從資料庫：讀寫分離

1.問題首先，為什麼會碰到這樣的問題？昨天寫的一個業務上線了，但是在dev環境和test環境都能跑，但是到了線上環境發生資料不能插入的問題。

springboot+mybatis實現資料庫的讀寫分離

介紹隨著業務的發展，除了拆分業務模組外，資料庫的讀寫分離也是常見的優化手段。

使用nodeJS中的fs模組對檔案及目錄進行讀寫,刪除,追加,等操作詳解

fs概述檔案 I/O 是由簡單封裝的標準 POSIX 函式提供的。 nodeJS中通過 require(\'fs\') 使用fs模組。所有的方法都有非同步和同步的形式。

聊聊Mysql主從同步讀寫分離配置實現

Hi,各位熱愛技術的小夥伴您們好，好久沒有寫點東西了，今天寫點關於mysql主從同步配置的操作日誌同大家一起分享。最近自己在全新搭建一個mysql主從同步讀寫分離資料庫簡單叢集，我講實際操作步驟整理分享處理，希望對

python實現對Excle表格的讀寫

1、使用xlrd模組讀取資料 # 將excel表格內容匯入到tables列表中 def import_excel(tab): # 建立一個空列表，儲存Excel的資料

python 三種方法實現對Excel表格的讀寫

1、使用xlrd模組讀取資料 # 將excel表格內容匯入到tables列表中 def import_excel(tab): # 建立一個空列表，儲存Excel的資料

【android studio】建立1M的檔案，內容隨機，對其進行讀寫驗證

技術標籤：android studioandroid studiojava 我傻了，之前建立1M檔案的時候，我檢視檔案屬性總是發現檔案不是1M，一直以為是io流的原因，又是加flush和close也沒有用，然後今天我突發奇想的去adbshell看了一下檔

部署MongoDB分片結合複製集實現對mysql資料庫檔案分散式儲存（思路）

技術標籤：資料庫MongoDB資料庫nosqlmongodb 新增連結描述## 部署MongoDB分片結合複製集實現對mysql資料庫檔案分散式儲存注：

使用Python對Excel進行讀寫操作

學習Python的過程中，我們會遇到Excel的讀寫問題。這時，我們可以使用xlwt模組將資料寫入Excel表格中，使用xlrd模組從Excel中讀取資料。下面我們介紹如何實現使用Python對Excel進行讀寫操作。

Python對txt文件進行讀,寫,追加,修改操作(open,pandas,numpy)

技術標籤：python Python對txt文件進行讀,寫,追加,修改操作上次寫了一篇Python對csv文件進行讀,寫,追加操作，這次寫一篇關於txt的操作。本文將使用open,pandas,numpy三種方式對txt文件進行讀,寫,追加,在此不推

C++中對檔案進行讀寫操作

#include \"stdafx.h\" #include<fstream>#include<iostream>#include<cmath> using namespace std;

關於對mysql語句進行監控的方法詳解

快速閱讀為什麼要監控sql語句，以及如何監控，都有哪幾種方式可以監控。我們知道sql server 中有個工具叫sql profile ，可以實時監控sql server中執行的sql 語句，以方便除錯bug 或者確認最終生成的sql語句

pyspark對Mysql資料庫進行讀寫的實現

1 軟體版本

2 環境配置

3 讀取Mysql

4 寫入Mysql

5 常見報錯

相關推薦