第7章 External Data Source

阿新 • • 發佈：2018-12-17

7-1 -課程目錄

7-2 -產生背景

使用者：

方便快速從不同的資料來源（json，parquet,rebms),經過混合處理（Json，join，parquet），再將處理結果以特定的格式（json，parquet）再寫回到指定的（HDFS,s3)上去

Spark SQL1.2==>外部資料來源API

7-3 -概述

沒有本次課

7-4 -目標

外部資料來源的目的

1）開發人員：是否需要把程式碼合併到spark中？？？weibo

2)使用者

spark.read.format(format)

format

build-in: json parquet jdbc | csv(2+)

packages:外部的並不是spark內建

https://spark-packages.org/

寫：people.write.format("parquet").save("path")

7-5 -操作Parquet檔案資料

import org.apache.spark.sql.SparkSession

/**

* Parquet檔案操作

*/

object ParquetApp {

def main(args: Array[String]) {

val spark = SparkSession.builder().appName("SparkSessionApp")

.master("local[2]").getOrCreate()

/**

* spark.read.format("parquet").load 這是標準寫法

*/

val userDF = spark.read.format("parquet").load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet")

userDF.printSchema()

userDF.show()

userDF.select("name","favorite_color").show

userDF.select("name","favorite_color").write.format("json").save("file:///home/hadoop/tmp/jsonout")

spark.read.load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet").show

//會報錯，因為sparksql預設處理的format就是parquet

spark.read.load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json").show

spark.read.format("parquet").option("path","file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet").load().show

spark.stop()

}

}

7-6 -操作Hive表資料

7-7 -操作MySQL表資料

7-8 -Hive和MySQL綜合使用

原始碼地址：

https://gitee.com/sag888/big_data/blob/master/%E4%BB%A5%E6%85%95%E8%AF%BE%E7%BD%91%E6%97%A5%E5%BF%97%E5%88%86%E6%9E%90%E4%B8%BA%E4%BE%8B%20%E8%BF%9B%E5%85%A5%E5%A4%A7%E6%95%B0%E6%8D%AE%20Spark%20SQL%20%E7%9A%84%E4%B8%96%E7%95%8C/project/p1867y/ImoocSparkSQLProject/src/main/scala/com/imooc/spark/HiveMySQLApp.scala

原始碼：

package com.imooc.spark

import org.apache.spark.sql.SparkSession

/**

* 使用外部資料來源綜合查詢Hive和MySQL的表資料

*/

object HiveMySQLApp {

def main(args: Array[String]) {

val spark = SparkSession.builder().appName("HiveMySQLApp")

.master("local[2]").getOrCreate()

// 載入Hive表資料

val hiveDF = spark.table("emp")

// 載入MySQL表資料

val mysqlDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306").option("dbtable", "spark.DEPT").option("user", "root").option("password", "root").option("driver", "com.mysql.jdbc.Driver").load()

// JOIN

val resultDF = hiveDF.join(mysqlDF, hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))

resultDF.show

resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),

mysqlDF.col("deptno"), mysqlDF.col("dname")).show

spark.stop()

}

}

第7章 External Data Source

7-1 -課程目錄 7-2 -產生背景使用者：方便快速從不同的資料來源（json，parquet,rebms),經過混合處理（Json，join，parquet），再將處理結果以特定的格式（json，parquet）再寫回到指定的

第7章第1講一維數組

min display %d mar image 技術分享分享 lock images main() { int a[10],i,max,min; float ave=0; for(i=0;i<N;i++) sc

第7章第2講字符數組

width ++ mar block strcmp splay log for img main() { char ch[12]={‘G‘,‘o‘,‘o‘,‘d‘,‘ ‘,‘m‘,‘o‘,‘r‘,‘n‘,‘i‘,‘n‘,‘g‘}; int i

軟件工程過程第7章軟件工程過程改進

utf-8 原則努力復制系統安全度量策劃指南合同 1.軟件工程過程評估模型描述了作為有效過程特征的元素的結構化集合。這些評估模型提供了：P201 過程改進的出發點業界過去經營的結晶共同的語言和共享的構想活動優先次序的框架

《學習OpenCV3》第7章第4題-SVD奇異值分解的驗算

lac size ast 編寫代碼 ref www adding 第7章 mar 原文題目：中文翻譯：解題過程 d.使用OpenCV編寫代碼 /******************************************************

《.NET 設計規範》第 7 章：異常

運行 finall 輸出參數特定所有具體類撰寫文檔撰寫 gin 第 7 章：異常　　異常與各種面向對象語言集成得非常好。　　異常增強了 API 的一致性。　　在用返回值來報告錯誤時，錯誤處理的代碼與可能會發生錯誤的代碼距離總是很近。　　更容易使錯誤

第7章面向對象

python面向過程的程序設計把計算機程序視為一系列的命令集合，即一組函數的順序執行。為了簡化程序設計，面向過程把函數繼續切分為子函數，即把大塊函數通過切割成小塊函數來降低系統的復雜度。而面向對象的程序設計把計算機程序視為一組對象的集合，而每個對象都可以接收其他對象發過來的消息，並處理這些消息，計算機程序的執

python+selenium自動化軟件測試(第7章)：Page Object模式

結合首頁 .com selenium pan current returns find nbsp 什麽是Page ObjectModel模式Page Objects是selenium的一種測試設計模式，主要將每個頁面看作是一個class。class的內容主要包括屬性和方法

第7章 Android中訪問網絡資源

資源 async 圖片 pcl src sync tro client span https://developer.android.google.cn/studio/index.html 範例 7-6(HttpClient與AsyncTask結合下載圖片)

第7章 css3盒模型

情況 source 大小但是多行即使 bottom 行內元素顯示 diasplay:none;與visibility:hidden;的區別 diasplay:none;在瀏覽時保留位置，（為隱藏對象保留物理空間）visibility:hidden; 視為不存在，且不

C後端設計開發 - 第7章-真氣-遺失的網絡IO

com itl ron alt book blank nbsp 如果 tree 正文　　第7章-真氣-遺失的網絡IO 後記　　如果有錯誤, 歡迎指正. 有好的補充, 和疑問歡迎交流, 一塊提高. 在此謝謝大家了. ボクらの冒

《Effective Java》第7章方法

spark 版本 integer 繼承有效內部 for -1 vararg 第38條:檢查參數的有效性對於公有的方法，要用javadoc的@throws標簽(tag)在文檔中說明違反參數值限制時會拋出的異常。這樣的異常通常為IllegalArgumentExcept

【讀書筆記】《Maven實戰》第7章生命周期與插件

命令 ide ner 資源 clas res content 獨立 default 7.1什麽是生命周期軟件開發人員每天都在對項目進行清理、編譯、測試及部署，Maven生命周期是對所有構建過程進行抽象和統一，含項目的清理、初始化、編譯、測試、打包、集成測試、驗證、部署

Java並發編程從入門到精通 - 第7章：Fork/Join框架

進行 sys 工作樹形 img 相加 cat cep 調試 1、綜述：化繁為簡，分而治之；遞歸的分解和合並，直到任務小到可以接受的程度；2、Future任務機制： Future接口就是對於具體的Runnable或者Callable任務的執行結果進行取消、查詢是否完成、獲

《機器學習實戰》第7章的一處代碼錯誤

traceback com post cond 解決 elm back document image --------------------------------------------------------------------------- IndexError

第7章WEB07- JDBC篇

javaweb JDBC篇今日任務? 使用JDBC完成對分類表的CRUD的操作(JDBC的回顧)? 使用DBCP,C3P0連接池完成基本數據庫的操作(抽取工具類)? 使用元數據抽取一個JDBC的框架.? 能夠使用DBUtils完成CRUD的操作教學導航教學目標掌握DBCP和C3P0連接池的使用並掌握

第 7 章異常處理結構、代碼測試與調試

健壯性發現數據 font 高級編程操作好的下標越界提前　　再牛的程序員也無法提前預見代碼運行時可能遇到的所有情況，機會每個程序員都被用戶說過“你編的那個軟件不好用啊”，而程序員經過反復檢查以後發現問題的原因是用戶操作不規範或者輸入了錯誤類型的數據，於是一邊修改

Rspec: everyday-rspec實操。第7章使用請求測試-測試API

控制 tor 使用 spec rip resp pda mon create 測試應用與非人類用戶的交互，涵蓋外部 API 7.1request test vs feature test 對 RSpec 來說

Rails 5 Test Prescriptions 第6章Adding Data to Tests

vertical ransac top 速度第6章 sat 方便 remove 必須 bcreate the data quickly and easily。考慮測試運行的速度。fixtures and factories.以及下章討論的test doubles，還有原生

《Think Python》第7章學習筆記

決定 tro LG 以及 roo pre ssi 一個 span [TOC] 7.1 重新賦值（Reassignment）在 Python 中，用等號 = 進行變量賦值，但是變量賦值語句，比如 a = 3，與數學意義上的等式不是等價的。 7.2 更新變量（Updating

第7章 External Data Source

7-1 -課程目錄

7-2 -產生背景

7-3 -概述

7-4 -目標

7-5 -操作Parquet檔案資料

7-6 -操作Hive表資料

7-7 -操作MySQL表資料

7-8 -Hive和MySQL綜合使用

相關推薦