spark 2.x 外部資料來源綜合案例

阿新 • • 發佈：2019-01-10

先在 MySQL中建立一個數據庫

create database spark;

use spark;

CREATE TABLE DEPT(

DEPTNO int(2) PRIMARY KEY,

DNAME VARCHAR(14) ,

LOC VARCHAR(13) ) ;

INSERT INTO DEPT VALUES(10,'ACCOUNTING','NEW YORK');

INSERT INTO DEPT VALUES(20,'RESEARCH','DALLAS');

INSERT INTO DEPT VALUES(30,'SALES','CHICAGO');

INSERT INTO DEPT VALUES(40,'OPERATIONS','BOSTON');

scala> val hiveDF = spark.table("emp")

hiveDF: org.apache.spark.sql.DataFrame = [empno: int, ename: string ... 6 more fields]

scala> hiveDF.show()

+-----+------+---------+----+----------+-------+------+------+

+-----+------+---------+----+----------+-------+------+------+

| 7369| SMITH| CLERK|7902|1980-12-17| 800.0| null| 20|

| 7499| ALLEN| SALESMAN|7698| 1981-2-20| 1600.0| 300.0| 30|

| 7521| WARD| SALESMAN|7698| 1981-2-22| 1250.0| 500.0| 30|

| 7566| JONES| MANAGER|7839| 1981-4-2| 2975.0| null| 20|

| 7654|MARTIN| SALESMAN|7698| 1981-9-28| 1250.0|1400.0| 30|

| 7698| BLAKE| MANAGER|7839| 1981-5-1| 2850.0| null| 30|

| 7782| CLARK| MANAGER|7839| 1981-6-9| 2450.0| null| 10|

| 7788| SCOTT| ANALYST|7566| 1987-4-19| 3000.0| null| 20|

| 7839| KING|PRESIDENT|null|1981-11-17| 5000.0| null| 10|

| 7844|TURNER| SALESMAN|7698| 1981-9-8| 1500.0| 0.0| 30|

| 7876| ADAMS| CLERK|7788| 1987-5-23| 1100.0| null| 20|

| 7900| JAMES| CLERK|7698| 1981-12-3| 950.0| null| 30|

| 7902| FORD| ANALYST|7566| 1981-12-3| 3000.0| null| 20|

| 7934|MILLER| CLERK|7782| 1982-1-23| 1300.0| null| 10|

| 8888| HIVE| PROGRAM|7839| 1988-1-23|10300.0| null| null|

+-----+------+---------+----+----------+-------+------+------+

scala> val mysqlDF = spark.read.format("jdbc").

| option("url", "jdbc:mysql://localhost:3306").

| option("dbtable", "spark.DEPT").

| option("user", "root").

| option("password", "oracle").

| option("driver", "com.mysql.jdbc.Driver").

| load()

mysqlDF: org.apache.spark.sql.DataFrame = [DEPTNO: int, DNAME: string ... 1 more field]

scala> mysqlDF.show()

+------+----------+--------+

|DEPTNO| DNAME| LOC|

+------+----------+--------+

| 10|ACCOUNTING|NEW YORK|

| 20| RESEARCH| DALLAS|

| 30| SALES| CHICAGO|

| 40|OPERATIONS| BOSTON|

+------+----------+--------+

scala> val resultDF= hiveDF.join(mysqlDF,hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))

resultDF: org.apache.spark.sql.DataFrame = [empno: int, ename: string ... 9 more fields]

scala> resultDF.show()

+-----+------+---------+----+----------+------+------+------+------+----------+--------+

+-----+------+---------+----+----------+------+------+------+------+----------+--------+

| 7934|MILLER| CLERK|7782| 1982-1-23|1300.0| null| 10| 10|ACCOUNTING|NEW YORK|

| 7839| KING|PRESIDENT|null|1981-11-17|5000.0| null| 10| 10|ACCOUNTING|NEW YORK|

| 7782| CLARK| MANAGER|7839| 1981-6-9|2450.0| null| 10| 10|ACCOUNTING|NEW YORK|

| 7902| FORD| ANALYST|7566| 1981-12-3|3000.0| null| 20| 20| RESEARCH| DALLAS|

| 7876| ADAMS| CLERK|7788| 1987-5-23|1100.0| null| 20| 20| RESEARCH| DALLAS|

| 7788| SCOTT| ANALYST|7566| 1987-4-19|3000.0| null| 20| 20| RESEARCH| DALLAS|

| 7566| JONES| MANAGER|7839| 1981-4-2|2975.0| null| 20| 20| RESEARCH| DALLAS|

| 7369| SMITH| CLERK|7902|1980-12-17| 800.0| null| 20| 20| RESEARCH| DALLAS|

| 7900| JAMES| CLERK|7698| 1981-12-3| 950.0| null| 30| 30| SALES| CHICAGO|

| 7844|TURNER| SALESMAN|7698| 1981-9-8|1500.0| 0.0| 30| 30| SALES| CHICAGO|

| 7698| BLAKE| MANAGER|7839| 1981-5-1|2850.0| null| 30| 30| SALES| CHICAGO|

| 7654|MARTIN| SALESMAN|7698| 1981-9-28|1250.0|1400.0| 30| 30| SALES| CHICAGO|

| 7521| WARD| SALESMAN|7698| 1981-2-22|1250.0| 500.0| 30| 30| SALES| CHICAGO|

| 7499| ALLEN| SALESMAN|7698| 1981-2-20|1600.0| 300.0| 30| 30| SALES| CHICAGO|

+-----+------+---------+----+----------+------+------+------+------+----------+--------+

scala> resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),

| mysqlDF.col("deptno"),mysqlDF.col("dname")).show()

+-----+------+------+----------+

+-----+------+------+----------+

| 7934|MILLER| 10|ACCOUNTING|

| 7839| KING| 10|ACCOUNTING|

| 7782| CLARK| 10|ACCOUNTING|

| 7902| FORD| 20| RESEARCH|

| 7876| ADAMS| 20| RESEARCH|

| 7788| SCOTT| 20| RESEARCH|

| 7566| JONES| 20| RESEARCH|

| 7369| SMITH| 20| RESEARCH|

| 7900| JAMES| 30| SALES|

| 7844|TURNER| 30| SALES|

| 7698| BLAKE| 30| SALES|

| 7654|MARTIN| 30| SALES|

| 7521| WARD| 30| SALES|

| 7499| ALLEN| 30| SALES|

+-----+------+------+----------+

spark 2.x 外部資料來源綜合案例

先在 MySQL中建立一個數據庫 create database spark;use spark;CREATE TABLE DEPT(DEPTNO int(2) PRIMARY KEY,DNAME VARCHAR(14) ,LOC VARCHAR(13) ) ;INSERT

將程式碼從 spark 1.x 移植到 spark 2.x

1. SparkSession sparkSession可以視為sqlContext和hiveContext以及StreamingContext的結合體，這些Context的API都可以通過sparkSession使用。建立SparkSession val

spark 2.X 疑難問題匯總

cto package 需要相關配置 ipc nag manage 內容 state 當前spark任務都是運行在yarn上，所以不用啟動長進程worker，也沒有master的HA問題，所以主要的問題在任務執行層面。作業故障分類故障主要分為版本，內存和權限三方面。 -

Spark 2.x 提交Job原始碼淺析

大家都知道，spark job的提交是觸發了Action操作，現在我在RDD.scala中找到collect運算元，在這下面是有一個runjob方法 def collect(): Array[T] = withScope { val results = sc.runJob(th

spark 2.X學習筆記

一課程導讀 1 課程目標目標：熟悉Spark相關概念目標：搭建Spark叢集目標：編寫簡單的Spark應用程式 2 Spark概述什麼是Spark（官網：http://spark.

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）全套課程下載：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼: 9n1x 本門課程來源於一線生產專案，所有程式碼都是在現網大資料叢集上穩定執行，拒絕Demo。課程涵蓋了離線分析

Spark 2.x企業級大數據項目實戰（實時統計、離線分析和實時ETL）

sql表中完成行數據 text rtt stream context 查找保存 Spark 2.x企業級大數據項目實戰（實時統計、離線分析和實時ETL）全套課程下載：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼

Spark 2.x 提交原始碼淺析

大家都知道，spark job的提交是觸發了Action操作，現在我在RDD.scala中找到collect運算元，在這下面是有一個runjob方法 def collect(): Array[T] = withScope { val results =

Spark SQL之外部資料來源

概述從Spark 1.2版本開始，Spark SQL正式支援外部資料來源。它可以通過DataFrame介面對各種資料來源進行操作，例如orc,parquet,json,hive,jdbc,avro等。它既可以通過轉換成RDD進行操作，也可以被建立為一個臨時檢視。將外部資料讀入後建立

spark 2.x 原始碼分析之 Logistic Regression 邏輯迴歸

Logistic Regression 邏輯迴歸注：第一次寫部落格，希望互相交流改進。如果公式顯示不完整，請看github原文一、二元邏輯迴歸 1、簡介迴歸是解決變數之間的對映關係（x->y），而邏輯迴歸則通過sigmoi

Springboot 2.x 外部資原始檔配置

springboot1.5的寫法過時，2.x版本寫法如下 @Configuration //@EnableWebMvc public class MvcConfig implements WebMvc

Spark 2.x 自定義累加器AccumulatorV2的使用

廢除 Spark2.x之後，之前的的accumulator被廢除，用AccumulatorV2代替；更新增加建立並註冊一個long accumulator, 從“0”開始，用“add”累加 def longAccumulator(name

Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

本期內容： 1. 新型的Spark Streaming思維 2. Structured Streaming內幕 Spark 2.0 仍有bug，不適合於生成環境。只用於測試。 Spark 2.X提出了continuous application（連續的應用程式）的概念，非

Spark 2.x 決策樹示例程式碼-IRIS資料集

資料集下載下載連結程式碼 package Iris; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import o

Spark 2.x 三種叢集方式（一）

Spark 2.x 可以通過以下3種方式配置和管理叢集1、獨立 - 包含在Spark中的簡單叢集管理器，可以輕鬆設定叢集。2、Apache Mesos - 一個通用的叢集管理器，也可以執行Hadoop MapReduce和服務應用程式。3、Hadoop YARN - H

Spark Release 2.2.0 最新版本釋出，Spark 2.2.0是Spark 2.x中第一個在生產環境可以使用的版本，對於Spark具有里程碑意義

第2章 Spark 2.X技術及原理 Apache官方網站於2017年7月11日釋出了Spark Release 2.2.0版本， Apache Spark 2.2.0版本是Spark 2.x系列上的第三個版本。Spark 2.2.0是Spark 2.x中第一個在生產環境可以

Spark SQL：Hive資料來源複雜綜合案例實戰

一、Hive資料來源實戰 Spark SQL支援對Hive中儲存的資料進行讀寫。操作Hive中的資料時，必須建立HiveContext，而不是SQLContext。HiveContext繼承自SQLContext，但是增加了在Hive元資料庫中查詢表，以及用Hi

Spark SQL：JDBC資料來源複雜綜合案例實戰

一、JDBC資料來源實戰 Spark SQL支援使用JDBC從關係型資料庫（比如MySQL）中讀取資料。讀取的資料，依然由DataFrame表示，可以很方便地使用Spark Core提供的各種運算元

spring boot 2.0多資料來源案例

主資料來源配置 @Configuration @MapperScan(basePackages = "com.somta.springboot.dao.master", sqlSessionTemplateRef = "masterSqlSessionTemplate

Spark學習（陸）- Spark操作外部資料來源

文章目錄產生背景概念目標操作Parquet檔案資料操作Hive表資料操作MySQL表資料操作MySQL的資料方法一: 操作MySQL的資料方法二: 操作MySQL

spark 2.x 外部資料來源綜合案例

相關推薦