2021-2022年寒假學習進度20

阿新 • • 發佈：2022-01-20

今天完成spark基礎實驗五

一、實驗目的

（1）通過實驗掌握SparkSQL的基本程式設計方法；

（2）熟悉RDD到DataFrame 的轉化方法；

（3）熟悉利用SparkSQL管理來自不同資料來源的資料。

二、實驗平臺

作業系統： Ubuntu16.04 Spark 版本：2.1.0

資料庫：MySQL

三、實驗內容和要求

1.SparkSQL基本操作

將下列JSON 格式資料複製到 Linux 系統中，並儲存命名為 employee.json。

為 employee.json 建立DataFrame，並寫出 Scala 語句完成下列操作：

(1)查詢所有資料；

(2)查詢所有資料，並去除重複的資料；

(3)查詢所有資料，列印時去除 id 欄位；

(4)篩選出 age>30的記錄；

(5)將資料按 age 分組；

(6)將資料按 name 升序排列；

(7)取出前 3 行資料；

(8)查詢所有記錄的 name 列，併為其取別名為 username；

(9)查詢年齡 age的平均值；

(10)查詢年齡 age的最小值。

2.程式設計實現將 RDD轉換為 DataFrame

原始檔內容如下（包含id,name,age）：

請將資料複製儲存到 Linux 系統中，命名為 employee.txt，實現從 RDD 轉換得到

DataFrame，並按“id:1,name:Ella,age:36”的格式打印出

DataFrame 的所有資料。請寫出程式程式碼。

原始碼：

import org.apache.spark.sql.types._

import org.apache.spark.sql.Row

val peopleRDD = spark.sparkContext.textFile("file:///opt/software/employee.txt")

val schemaString = "id name age"

val fields = schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, nullable = true))

val schema = StructType(fields)

val rowRDD = peopleRDD.map(_.split(",")).map(attributes => Row(attributes(0), attributes(1).trim, attributes(2).trim))

val peopleDF = spark.createDataFrame(rowRDD, schema)

peopleDF.createOrReplaceTempView("people")

val results = spark.sql("SELECT id,name,age FROM people")

results.map(attributes => "id: " + attributes(0)+","+"name:"+attributes(1)+","+"age:"+attributes(2)).show(false)

3.程式設計實現利用 DataFrame讀寫 MySQL的資料

（1）在 MySQL資料庫中新建資料庫 sparktest，再建立表 employee，包含如表 6-2所示的兩行資料。

表 6-2 employee 表原有資料

id	name	gender	Age
1	Alice	F	22
2	John	M	25

（2）配置 Spark通過 JDBC連線資料庫MySQL，程式設計實現利用DataFrame插入如表 6-3所示的兩行資料到MySQL中，最後打印出 age的最大值和 age的總和。

表 6-3 employee 表新增資料

id	name	gender	age
3	Mary	F	26
4	Tom	M	23
package spark.core.exper05 /** * @ClassName TestMysql.java * @author 趙浩博 * @version 1.0.0 * @Description TODO * @createTime 2022年01月19日 14:31:00 */ import java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SparkSession} object TestMysql { def main(args: Array[String]) { val spark=SparkSession.builder().getOrCreate() val employeeRDD = spark.sparkContext.parallelize(Array("3 Mary F 26","4 Tom M 23")).map(_.split(" ")) val schema = StructType(List(StructField("id", IntegerType, true),StructField("name", StringType, true),StructField("gender", StringType, true),StructField("age", IntegerType, true))) val rowRDD = employeeRDD.map(p => Row(p(0).toInt,p(1).trim, p(2).trim,p(3).toInt)) val employeeDF = spark.createDataFrame(rowRDD, schema) val prop = new Properties() prop.put("user", "root") prop.put("password", "1229") prop.put("driver","com.mysql.cj.jdbc.Driver") employeeDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/sparktest", "sparktest.employee", prop) val jdbcDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparktest").option("driver","com.mysql.jdbc.Driver").option("dbtable","employee").option("user","root").option("password", "1229").load() jdbcDF.agg("age" -> "max", "age" -> "sum") } }

作者：哦心有出處：https://www.cnblogs.com/haobox/ 本文版權歸作者和部落格園共有，歡迎轉載，但必須給出原文連結，並保留此段宣告，否則保留追究法律責任的權利。

2021-2022年寒假學習進度20

今天完成spark基礎實驗五一、實驗目的（1）通過實驗掌握SparkSQL的基本程式設計方法；

2021-2022年寒假學習進度04

今天學習了spark執行結構的一些基本知識，同時學習了springboot後端框架的使用

2021-2022年寒假學習進度10

一、實驗目的掌握 Scala語言的基本語法、資料結構和控制結構；掌握面向物件程式設計的基礎知識，能夠編寫自定義類和特質；

SDUTOJ 2021級ACM班&2022年寒假集訓《資料結構》專題10--最短路

A - 圖結構練習——最短路徑 dijkstra樸素版和堆優化版的模板，權當複習了因為是迴圈輸入，一開始寫初始化函式的時候沒有把head和vis也初始化掉，導致TLE了。

2021級ACM班&2022年寒假集訓《資料結構》專題12--拓撲排序和關鍵路徑

A - 資料結構實驗之圖論十：判斷給定圖是否存在合法拓撲序列題目連結 https://acm.sdut.edu.cn/onlinejudge3/contests/3990/problems/A

大三寒假學習進度（4）

tensorflow學習鳶尾花分類步驟 1 · 準備資料，包括資料集讀入、資料集亂序，把訓練集和測試集中的資料配成輸入特徵和標籤對，生成 train 和 test 即永不相見的訓練集和測試集；

中國移動 2021-2022 年硬體防火牆擴容採購：華為、新華三和迪普中標

從中國移動官網獲悉，中國移動今日上午啟動 2021 年至 2022 年硬體防火牆產品擴容採購。

20191320-2021-2022-1-diocs 學習筆記4

第7章檔案操作——教材知識點歸納 7.1檔案操作級別 linux中檔案操作可以分為5個級別，從低等級到高等級分別為：

2021-2022年部落格更新計劃

2021下半年到2022年上半年，我將專注於閱讀機器學習以及深度學習的書籍，學習相關的課程並記錄相關的筆記，將這些筆記公開到我的部落格上，對機器學習以及深度學習感興趣的小夥伴，可是隨時關注我的部落格，我會不斷

20191320-2021-2022-1-diocs 學習筆記6

第3章 Unix/Linux程序管理 3.1~3.2 多工處理、程序多工處理：多工處理指的是機器同時進行幾項獨立活動的能力。在計算機技術中，多工處理是通過在不同任務之間切換實現的。雖然在一個時間點，CPU只能執行一個任務，

20191320-2021-2022-1-diocs 學習筆記5

第4章併發程式設計 4.1~4.2並行概念並行：平行計算是一種計算方案，它嘗試使用多個執行並行演算法的處理器更快速地解決問題。

20191320-2021-2022-1-diocs 學習筆記9

第6章訊號和訊號處理 6.1~6.3 訊號和中斷中斷：中斷是I/O裝置傳送到CPU的外部請求，將CPU從正常執行轉移到中斷處理。

20191320-2021-2022-1-diocs 學習筆記11

第13章 TCP/IP和網路程式設計 TCP/IP協議 TCP/IP 是網際網路的基礎。TCP代表傳輸控制協議。IP代表網際網路協議。目前有兩個版本的IP,即IPv4和IPv6。IPv4使用32位地址，IPv6則使用128位地址。本節圍繞IPv4進行討論，

20191320-2021-2022-1-diocs 學習筆記12

第14章 MySQL資料庫系統 MySQL資料庫 MySQL(MySQL 2018)是一個關係資料庫系統。在關係資料庫中，資料儲存在表中。每個表由多個行和列組成。表中的資料相互關聯，表也可能與其他表有關聯。

寒假學習進度2

今天接著昨天spark學習使用spark自己自帶的函式完成對文字中的單詞統計，昨天程式碼的進階版

騰訊遊戲公佈 2022 年寒假暨春節假期未成年人限玩時間，最多可玩 14 個小時

1 月 17 日訊息，騰訊遊戲今日公佈了2022 年寒假暨春節假期未成年人限玩時間，最多可以玩 14 個小時。騰訊表示，結合《關於進一步嚴格管理切實防止未成年人沉迷網路遊戲的通知》與實際放假調休安排，未成年人可於以

2021年寒假生活日報告-第五天（android開發記賬本進度四）

今日android開發進度：（一）首先，製作一個記賬本的頁面。 ①在系統自動建立的content_main.xml檔案中新增listview.

2021年寒假生活日報告-第六天（android開發記賬本進度五）

今日android開發進度：　　res/layout/xml檔案： 1.activity_main.xml <?xml version=\"1.0\" encoding=\"utf-8\"?><androidx.coordinatorlayout.widget.CoordinatorLayoutxmlns:android=\"http://schema

2021年寒假生活日報告-第八天（android開發記賬本進度七）

本次android開發記賬本圓滿完成，到此就要告一段落了，分享自己的一些成果：

2021年10月16日 2021-2022第一學期20212303《網路空間安全專業導論》第四周學習總結

第8章抽象資料型別與子程式 8.1抽象資料型別抽象資料型別（ADT）是指一個數學模型及定義在該模型上的一組操作。它僅取決於其邏輯特徵，而與計算機內部如何表示和實現無關。

2021-2022年寒假學習進度20

一、實驗目的

二、實驗平臺

三、實驗內容和要求

1.SparkSQL基本操作

2.程式設計實現將 RDD轉換為 DataFrame

3.程式設計實現利用 DataFrame讀寫 MySQL的資料

表 6-2 employee 表原有資料

相關推薦