【Spark】SparkSql分析結果寫入Mysql

阿新 • • 發佈：2018-11-13

文章目錄

前言
裝備
Core Code

1. Mysql資料庫建結果表
2. DB配置檔案
3. 搞個檔案
4. 資料分層
5. SparkJob父類
6. MetroAnalysisJob（具體業務sparkjob）
7. SparkJob工具類
8. MySQLjdbcConfig
9. Running Result

Github
總結

前言

hadoop完全分散式叢集搭建剛寫完。還是先寫一下應用。這裡寫一下sparksql怎麼應用起來。

Spark SQL是spark家族裡面最常用的。在實際開發當中也比RDD常用。

題外話。想了解RDD的java函數語言程式設計可以看

【Spark】SparkRDD開發手冊（JavaAPI函數語言程式設計） https://blog.csdn.net/HuHui_/article/details/83905308

我們先看一下wiki（來歷）：

Spark SQL在Spark核心上帶出一種名為SchemaRDD的資料抽象化概念，提供結構化和半結構化資料相關的支援。Spark SQL提供了領域特定語言，可使用Scala、Java或Python來操縱SchemaRDDs。它還支援使用使用命令列介面和ODBC／JDBC伺服器操作SQL語言。在Spark 1.3版本，SchemaRDD被重新命名為DataFrame。
重點注意

以前專案經常能看到Hive解析MapReduce提交到叢集上執行。後來出現了Spark，又有了Hive解析成SparkJob提交到叢集上執行。這裡解釋一下

SparkSQL的前身是Shark，但又因為Shark對於Hive的太多依賴，2014年spark團隊停止對Shark的開發，將所有資源放SparkSQL專案上，SparkSQL作為Spark生態的一員逐漸發展，而不再受限於Hive，只是相容Hive；Hive on Spark是由Cloudera發起，由Intel、MapR等公司共同參與的開源專案，2014年spark團隊停止對Shark的開發，將所有資源放SparkSQL專案上，也就是說，Hive將不再受限於一個引擎，可以採用Map-Reduce、Tez、Spark等引擎
應用場景

可以說大資料應用來說是最簡單的，最方便應用的計算方式。通過對資料來源的讀取後，使用sql語言即可分析並解決大部分的大資料分析計算問題。一般在資料分層裡面不管是源資料計算還是業務資料分析都十分常用。
小編提醒

我github的例子不需要你去安裝spark環境。單機版的在本機local既可用。

以後更新完所有的基礎用法。用一個專案把全部應用起來。就不能用單機版跑了。

但是學習過程並不需要被這些束縛。

最常用的是計算第一第二層資料，存hbase，然後計算第三層資料（業務相關），存到結果表（ES or Mysql…etc）。

裝備

maven依賴我這裡使用spark2.1.1
sql基礎
mysql（其他database也可以，用於計算結果儲存）

Core Code

1. Mysql資料庫建結果表

CREATE TABLE `hui_metro_test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `from_station` varchar(255) DEFAULT NULL,
  `to_station` varchar(255) DEFAULT NULL,
  `count` int(11) DEFAULT NULL,
  `distance` double DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=201743 DEFAULT CHARSET=utf8;

2. DB配置檔案

db.url=jdbc:mysql://127.0.0.1:3306/hui?characterEncoding=UTF-8
db.user=root
db.password=123456
db.driver=com.mysql.jdbc.Driver

3. 搞個檔案


{ "from_station":"西朗","to_station":"坑口","count":"1","distance":"1.6" },
{ "from_station":"西朗","to_station":"花地灣","count":"2","distance":"2.5" },
{ "from_station":"西朗","to_station":"芳村","count":"3","distance":"3.8" },
{ "from_station":"西朗","to_station":"黃沙","count":"4","distance":"5.2" },
{ "from_station":"西朗","to_station":"長壽路","count":"5","distance":"6.1" },
{ "from_station":"西朗","to_station":"陳家祠","count":"6","distance":"7.3" },
{ "from_station":"西朗","to_station":"西門口","count":"7","distance":"8.3" },
{ "from_station":"西朗","to_station":"公園前","count":"8","distance":"9.1" },
{ "from_station":"西朗","to_station":"農講所","count":"9","distance":"10.3" },
{ "from_station":"西朗","to_station":"烈士陵園","count":"10","distance":"11.3" }

4. 資料分層

我這裡沒有什麼資料分層，根據實際需要。我是直接把分析結果檔案存入mysql

5. SparkJob父類

/**
 * <b><code>SparkJob</code></b>
 * <p/>
 * Description:
 * <p/>
 * <b>Creation Time:</b> 2018/11/11 17:39.
 *
 * @author Hu Weihui
 */
public class SparkJob {
    /**
     * The constant LOGGER.
     *
     * @since hui_project 1.0.0
     */
    private static final Logger LOGGER = LoggerFactory.getLogger(SparkJob.class);

    /**
     * The constant serialVersionUID.
     *
     * @since hui_project 1.0.0
     */
    private static final long serialVersionUID = 771902776566370732L;

    /**
     * Instantiates a new Spark job.
     */
    protected SparkJob(){}

    /**
     * Execute.
     *
     * @param sparkContext the spark context
     * @param args         the args
     * @since hui_project 1.0.0
     */
    public void execute(JavaSparkContext sparkContext, String[] args) {
    }

    /**
     * Execute.
     *
     * @param sparkContext the spark context
     * @since hui_project 1.0.0
     */
    public void execute(JavaSparkContext sparkContext) {

    }
}

6. MetroAnalysisJob（具體業務sparkjob）

/**
 * <b><code>MetroAnalysisJob</code></b>
 * <p/>
 * Description:
 * <p/>
 * <b>Creation Time:</b> 2018/11/11 17:32.
 *
 * @author Hu Weihui
 */
public class MetroAnalysisJob extends SparkJob {

    private static Logger LOGGER = LoggerFactory.getLogger(MetroAnalysisJob.class);

    private static final String INPUT_FILE_PATH
            = MetroAnalysisJob.class.getClassLoader().getResource("test.json").toString();

    private static final String OUTPUT_FILE_PATH
            = "D:/test/test";

    private static final String SQL = "select * from hui_metro_testjson";

    public static void main(String[] args) {
        SparkConf sparkConf = new SparkConf()
                .setAppName("test")
                .setMaster("local[4]");

        JavaSparkContext sparkContext = new JavaSparkContext(sparkConf);

        MetroAnalysisJob metroAnalysisJob = new MetroAnalysisJob();

        metroAnalysisJob.execute(sparkContext, args);
    }

    @Override
    public void execute(JavaSparkContext sparkContext, String[] args) {
        super.execute(sparkContext, args);
        deal(sparkContext, INPUT_FILE_PATH, OUTPUT_FILE_PATH);
    }

     /**
     * 資料邏輯處理
     * @param sparkContext
     * @param inPutPath
     * @param outPutPath
     */
    private void deal(JavaSparkContext sparkContext, String inPutPath, String outPutPath) {
        SparkJobUtil.checkFileExists(inPutPath);

        SQLContext sqlContext = new SQLContext(sparkContext);
//        sqlContext.setConf("spark.sql.parquet.binaryAsString","true");

        //建立快照臨時表
        Dataset<Row> dataset = sqlContext.read().json(inPutPath);
        dataset.registerTempTable("hui_metro_testjson");
        dataset.show(10);

        Dataset<Row> resultFrame = sqlContext.sql(SQL);

        if (resultFrame.count() > 0) {
            resultFrame.repartition(3).write()
                    .mode(SaveMode.Append).json(outPutPath);
        }

        resultFrame.show(10);

 //結果寫入資料庫
        MySQLJdbcConfig jdbcConfig = new MySQLJdbcConfig();
        jdbcConfig.init();
        resultFrame.write().mode("append")
                .jdbc(jdbcConfig.getUrl(), "hui_metro_test", jdbcConfig.getConnectionProperties());
    }

}

7. SparkJob工具類

/**
 * <b><code>SparkJobUtil</code></b>
 * <p/>
 * Description:
 * <p/>
 * <b>Creation Time:</b> 2018/11/11 17:48.
 *
 * @author Hu Weihui
 */
public class SparkJobUtil {
    /**
     * The constant LOGGER.
     *
     * @since hui_project 1.0.0
     */
    private static final Logger LOGGER = LoggerFactory.getLogger(SparkJobUtil.class);

    /**
     * Close quietly.
     *
     * @param fileSystem the file system
     * @since hui_project 1.0.0
     */
    public static void closeQuietly(FileSystem fileSystem) {
        if (fileSystem != null) {
            try {
                fileSystem.close();
            } catch (IOException e) {
                LOGGER.error("Fail to close FileSystem:" + fileSystem, e);
            }
        }
    }

    /**
     * Check file exists.
     *
     * @param path the path
     * @since hui_project 1.0.0
     */
    public static void checkFileExists(String path) {
        Configuration configuration = new Configuration();
        FileSystem fileSystem = null;
        try {
            fileSystem = FileSystem.get(configuration);
            if (!fileSystem.exists(new Path(path))) {
                throw new FileNotFoundException(path);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }finally {
            closeQuietly(fileSystem);
        }
    }
}

8. MySQLjdbcConfig

主要是讀取配置檔案然後傳入DataFrame去連線

/**
 * <b><code>MySQLJdbcConfig</code></b>
 * <p/>
 * Description:
 * <p/>
 * <b>Creation Time:</b> 2018/11/11 17:32.
 *
 * @author Hu Weihui
 */
public class MySQLJdbcConfig {
    private static final Logger LOGGER = LoggerFactory.getLogger(MySQLJdbcConfig.class);

    private String table;

    private String url;

    private Properties connectionProperties;

    public void init(){
        Properties properties = new Properties();
        InputStream resourceAsStream = this.getClass().getClassLoader().getResourceAsStream("jdbc.properties");
        try {
            properties.load(resourceAsStream);
            setUrl(properties.getProperty("db.url"));
            //考慮多資料來源的情況，另外建立properties傳入
            Properties connectionProperties = new Properties();
            connectionProperties.setProperty("user",properties.getProperty("db.user"));
            connectionProperties.setProperty("password",properties.getProperty("db.password"));
            connectionProperties.setProperty("url",properties.getProperty("db.url"));
            setConnectionProperties(connectionProperties);
        } catch (IOException e) {
            LOGGER.info("讀取配置檔案失敗");
        }

    }

    public String getTable() {
        return table;
    }

    public void setTable(String table) {
        this.table = table;
    }

    public String getUrl() {
        return url;
    }

    public void setUrl(String url) {
        this.url = url;
    }

    public Properties getConnectionProperties() {
        return connectionProperties;
    }

    public void setConnectionProperties(Properties connectionProperties) {

        this.connectionProperties = connectionProperties;
    }
}

9. Running Result

running-result

Github

只要自己建立個數據庫就可以跑了。

往後更新H2資料庫直接跑H2，資料庫都不需要建立

https://github.com/ithuhui/hui-bigdata-spark/tree/master/src/main/java/com/bigdata/spark/sparksql

總結

Spark不難，但是原理需要我們去理解。以後再更新原始碼方面，更詳細的東西
資料分層很重要
轉載註明一下作者唄。感謝小哥哥小姐姐~
喜歡的話留下評論討論問題，如果能幫到你們很開心。

【Spark】SparkSql分析結果寫入Mysql

文章目錄前言裝備 Core Code 1. Mysql資料庫建結果表 2. DB配置檔案 3. 搞個檔案 4. 資料分層 5. SparkJob父類 6. MetroAnalysisJob（具體

【原創】python3將圖片寫入mysql資料庫（一）

01.環境準備使用的包：pymysqlpymysql下載地址：https://pypi.python.org/pypi/PyMySQL#downloads02.pymysql安裝：03.mysql的blob欄位解釋：BLOB型別的欄位用於儲存二進位制資料MySQL中，BLOB

【八】Spark Streaming 用foreachRDD把結果寫入Mysql中Local模式（使用Scala語言）

DStream 的foreachRDD是允許把資料傳送到外部檔案系統中。然而使用不當會導致各種問題。錯誤示範1：在driver建立連線，在woker使用。會報錯connection object not serializable。錯誤示範2：rdd每個記錄都建立連

大資料學習之路106-spark streaming統計結果寫入mysql

我們首先將資料庫的配置資訊寫到配置檔案中。要使用配置檔案的話，首先我們要在pom檔案中匯入配置檔案讀取依賴： <dependency> <groupId>com.typesafe</groupId>

pvuv的程式碼開發及提交spark程式jar包執行讀取資料來源並將結果寫入MySQL中

目錄 PvUvToMysql類 ConnectionUtils類 jdbc.properties檔案在IDEA中打jar包的兩種方式 IDEA打jar包 IDEA中maven方式打jar包提交spark程式ja

Spark中ip對映資料應用庫，二分查詢省份，將結果寫入mysql

def main(args: Array[String]): Unit = { val conf = new SparkConf() .setMaster("local") .setAppName(IpLocation3.getClass.getName) val sc =

mysql錯誤【一】[ERROR] Missing system table mysql.proxies_priv

mysql錯誤環境：mysql一主一從架構，主庫是mysql5.1，從庫是mysql5.6；系統均為CentOS6.2 問題：在主庫上面執行的SQL語句 1.創建表 CREATE TABLE `app_versions` ( `date` date NO

【轉載】Linux查看 apache,mysql,php安裝路徑

my.cnf sdn mysql目錄 pan sbin dump lin tail art 原文鏈接：http://blog.csdn.net/pengone/article/details/50035889 apache: 如果采用RPM包安裝，安裝路徑應在 /e

【Spark】DAGScheduler源代碼淺析

under 提交 title 作者 sem lis git lean access DAGScheduler DAGScheduler的主要任務是基於Stage構建DAG，決定每個任務的最佳位置記錄哪個RDD或者Stage輸出被物化

【Spark】RDD操作具體解釋4——Action算子

() sim comment cat zed ret form sdn order 本質上在Actions算子中通過SparkContext運行提交作業的runJob操作，觸發了RDD DAG的運行。依據Action算子的輸出空間將Action算子進

【Python】學習筆記5-操作mysql數據庫pymysql

rod bsp phone utf8 charset delet 建立包含 hone import pymysql#其他數據庫，比如oracle 模塊是pyoracle#1、鏈接數據庫mysq ip 端口號密碼賬戶數據庫#2、建立遊標#3、執行sql#4、獲取結果#

【Spark】篇---Spark中yarn模式兩種提交任務方式

方式 div -s and clas client 命令 yarn 模式一、前述 Spark可以和Yarn整合，將Application提交到Yarn上運行，和StandAlone提交模式一樣，Yarn也有兩種提交任務的方式。二、具體 1、yarn

【MySQL】【備份】使用XtraBackup物理備份MySQL的流程

一致性結構邏輯 pass 麻煩 mysql class table pex 簡介： ? XtraBackup包含兩個主要的工具即：xtrabackup和innobackupex ? xtrabackup:只能備份InnoDB和XtraDB兩種事務引擎的表，不支持

【20180608】MySQL5.7新增表mysql.gtid_executed

GTID gitd_executed MySQL5.7新增表mysql.gtid_executed MySQL5.6主從，從庫獲取gtid_executed 在MySQL5.6的時候，主從復制開啟了GTID，在slave執行show slave status \G的時候可以獲取得到當前執行的GTID的

【Python】動手分析天貓內衣售賣數據，得到你想知道的信息

exce time 2.0 show pro val 代碼中國 control 　　大家好，我是一個老實人，現在我決定用 Python 抓取天貓內衣銷售數據，並分析得到中國女性普遍的罩杯數據，和最受歡迎的內衣顏色是什麽。　　希望看完之後你能替你女朋友買上一件心怡的內衣

【spark】dataframe常見操作

all data 通過 sch 兩個執行計劃 min 內存就是 spark dataframe派生於RDD類，但是提供了非常強大的數據操作功能。當然主要對類SQL的支持。在實際工作中會遇到這樣的情況，主要是會進行兩個數據集的篩選、合並，重新入庫。首先加載數據

【Linux】CentOS 7.4 安裝 MySQL 8.0.12 解壓版

style prope error shared false 添加 tab code plain 安裝環境/工具　　1、Linux（CentOS 7.4版）　　2、mysql-8.0.12-el7-x86_64.tar.gz 安裝步驟　　參考：https://dev.

【筆記】 PackageManagerService 分析

1.Settings 類：Settings主要用於儲存一些資訊，實際上它確實是用於管理Android系統執行過程中的一些設定資訊 1.成員變數： 1.settings 類初始化時生成/建立/data/system/ 下的packages.xml

【Android】原始碼分析 - LRUCache快取實現原理

一、Android中的快取策略一般來說，快取策略主要包含快取的新增、獲取和刪除這三類操作。如何新增和獲取快取這個比較好理解，那麼為什麼還要刪除快取呢？這是因為不管是記憶體快取還是硬碟快取，它們的快取大小都是有限的。當快取滿了之後，再想其新增快取，這個時候就需要刪除一些舊的快取

【Android】原始碼分析 - View事件分發機制

事件分發物件（1）所有 Touch 事件都被封裝成了 MotionEvent 物件，包括 Touch 的位置、時間、歷史記錄以及第幾個手指(多指觸控)等。（2）事件型別分為 ACTION_DOWN， ACTION_UP，ACTION_MOVE，ACTION_POINTER_D

【Spark】SparkSql分析結果寫入Mysql

文章目錄

前言

裝備

Core Code

1. Mysql資料庫建結果表

2. DB配置檔案

3. 搞個檔案

4. 資料分層

5. SparkJob父類

6. MetroAnalysisJob（具體業務sparkjob）

7. SparkJob工具類

8. MySQLjdbcConfig

9. Running Result

Github

總結

相關推薦