1. 程式人生 > 實用技巧 >pyspark讀取csv文字儲存至MySQL案例

pyspark讀取csv文字儲存至MySQL案例

pyspark讀取csv文字儲存至MySQL案例

我們在使用spark處理完資料時,經常要將處理好的結果資料儲存的如mysql等關係型資料庫中,下面我們通過一個示例說明如何將spark處理好的資料儲存到mysql

  • csv檔案如下

檔案student.csv

id,name,age
1,張三,23
2,李四,24
  • 程式碼如下
from pyspark.sql.session import SparkSession as spark

sc = spark.builder.master('local[*]').appName('pysparktest').getOrCreate()

stuDF = sc.read.csv('C:\\Users\Administrator\Desktop\student.csv',header=True)

stuDF.show()
prop = {}
prop['user'] = 'root'
prop['password'] = 'root'
prop['driver'] = 'com.mysql.jdbc.Driver'

stuDF.write.jdbc('jdbc:mysql://localhost:3306/pyspark?characterEncoding=UTF-8','student','append',prop)
    
sc.stop()

問題及坑:

  • 1、報錯找不到mysql驅動

該解決方案是基於windows環境配置的pyspark
解決方案:

  • 首先找到pyspark的安裝路徑,如果使用的是pip的安裝的一般在C盤下。
    如果找不到可通過全盤檢索工具 Everythin搜尋 pyspark找到spypark.cmd所在的資料夾的上一層就是pyspark的安裝路徑
    如我的安裝目錄就在下面

  • 然後將mysql的驅動拷貝到pyspark安裝路徑下的jars資料夾中

  • 然後在系統環境變數中配置SPARK_CLASSPATH環境變數

    上面的步驟操作完後,愉快的執行程式碼,發現成功了!!!