spark學習進度26（spark sql程式設計初級實踐）

阿新 • • 發佈：2021-01-17

Spark SQL 基本操作：

將下列 JSON 格式資料複製到 Linux 系統中，並儲存命名為 employee.json。

{ "id":1 , "name":" Ella" , "age":36 }
{ "id":2, "name":"Bob","age":29 }
{ "id":3 , "name":"Jack","age":29 }
{ "id":4 , "name":"Jim","age":28 }
{ "id":4 , "name":"Jim","age":28 }
{ "id":5 , "name":"Damon" }
{ "id":5 , "name":"Damon" }

為 employee.json 建立 DataFrame，並寫出 Scala 語句完成下列操作：

(1) 查詢所有資料；

(2) 查詢所有資料，並去除重複的資料；

(3) 查詢所有資料，列印時去除 id 欄位；

(4) 篩選出 age>30 的記錄；

(5) 將資料按 age 分組；

(6) 將資料按 name 升序排列；

(7) 取出前 3 行資料；

(8) 查詢所有記錄的 name 列，併為其取別名為 username；

(9) 查詢年齡 age 的平均值；

(10) 查詢年齡 age 的最小值。

程式設計實現將 RDD 轉換為 DataFrame ：

原始檔內容如下（包含 id,name,age）：

1,Ella,36
2,Bob,29
3,Jack,29

請將資料複製儲存到 Linux 系統中，命名為 employee.txt，實現從 RDD 轉換得到 DataFrame，並按“id:1,name:Ella,age:36”的格式打印出 DataFrame 的所有資料。請寫出程式程式碼。

class woyesql {
  @Test
  def test(): Unit ={
    val spark=SparkSession.builder()
      .appName("datafreame1")
      .master("local[6]")
      .getOrCreate()

    import spark.implicits._

    val df=spark.sparkContext.textFile("dataset/employee.txt").map(_.split(","))
      .map(item => Employee(item(0).trim.toInt,item(1),item(2).trim.toInt))
      .toDF()
    df.createOrReplaceTempView("employee")//創工作空間
    val dfRDD=spark.sql("select * from employee")
    dfRDD.map(it => "id:"+it(0) +",name:"+it(1)+",age:"+it(2) )
      .show()
  }
}
case class Employee(id:Int,name:String,age:Long)

程式設計實現利用 DataFrame 讀寫 MySQL 的資料：

（1）在 MySQL 資料庫中新建資料庫 sparktest，再建立表 employee，包含如表 6-2 所示的兩行資料。

（2）配置 Spark 通過 JDBC 連線資料庫 MySQL，程式設計實現利用 DataFrame 插入如表 6-3 所示的兩行資料到 MySQL 中，最後打印出 age 的最大值和 age 的總和。

  @Test
  def sqlwrite():Unit={
    val spark = SparkSession
      .builder()
      .appName("mysql example")
      .master("local[6]")
      .getOrCreate()

    val schema = StructType(
      List(
        StructField("id", IntegerType),
        StructField("name", StringType),
        StructField("gender", StringType),
        StructField("age", IntegerType)
      )
    )

    val studentDF = spark.read
      //分隔符：製表符
      .option("delimiter", ",")
      .schema(schema)
      .csv("dataset/stu")

    studentDF.write
      .format("jdbc")
      .mode(SaveMode.Append)//模式是追加
      .option("url", "jdbc:mysql://hadooplinux01:3306/spark02")
      .option("dbtable", "employee")
      .option("user", "root")
      .option("password", "511924")
      .save()

    spark.read
      .format("jdbc")
      .option("url", "jdbc:mysql://hadooplinux01:3306/spark02")
      .option("dbtable","(select max(age),SUM(age) from employee) as emp")
      .option("user", "root")
      .option("password", "511924")
      .load()
      .show()
  }

spark學習進度26（spark sql程式設計初級實踐）

Spark SQL 基本操作：將下列 JSON 格式資料複製到 Linux 系統中，並儲存命名為 employee.json。

spark學習進度13（spark和高階特效）

　　　　這一節基本上全是概念：：：更新的幾種寫法：部署：邏輯：其實 RDD 並沒有什麼嚴格的邏輯執行圖和物理執行圖的概念, 這裡也只是借用這個概念, 從而讓整個 RDD 的原理可以解釋, 好理解.

spark學習進度05（RDD概念、程式碼、三種建立方式）

一、RDD概念 1、RDD在哪裡： 2、RDD是什麼：是一個容錯的, 並行的資料結構, 可以讓使用者顯式地將資料儲存到磁碟和記憶體中, 並能控制資料的分割槽.RDD 作為資料結構, 本質上是一個只讀的分割槽記錄集合. 一個

spark學習進度06（RDD的Map運算元、FlatMap運算元、ReduceByKey運算元）

一、Map運算元：作用把 RDD 中的資料一對一的轉為另一種形式呼叫 def map[U: ClassTag](f: T ⇒ U): RDD[U]

spark學習進度11（RDD分割槽和我shuffle以及快取）

一、RDD的分割槽和Shuffle 目標 RDD 的分割槽操作 Shuffle 的原理分割槽的作用 RDD 使用分割槽來分散式並行處理資料, 並且要做到儘量少的在不同的 Executor 之間使用網路交換資料, 所以當使用 RDD 讀取資

spark學習進度12（RDD的Checkpoint）

1. Checkpoint 目標 Checkpoint 的作用 Checkpoint 的使用、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斬斷 RDD 的依賴鏈, 並且將資料儲存在可靠的儲存引擎中, 例如支援分散式儲存和副本機制

spark學習進度17（Catalyst優化器、dataset介紹、dataframe介紹）

RDD 和 SparkSQL 執行時的區別 RDD的執行流程大致執行步驟先將RDD解析為由Stage組成的DAG, 後將Stage轉為Task直接執行

Spark SQL 程式設計初級實踐

一、實驗目的（1）通過實驗掌握 Spark SQL 的基本程式設計方法；（2）熟悉 RDD 到 DataFrame 的轉化方法；

Spark學習進度2

入門第一個應用的執行進入 Spark 安裝目錄中 cd /export/servers/spark/ 執行 Spark 示例任務

Spark Streaming 程式設計初級實踐

一、實驗目的（1）通過實驗學習日誌採集工具 Flume 的安裝和使用方法；（2）掌握採用 Flume 作為 Spark Streaming 資料來源的程式設計方法。

機器學習進度01（sklearn、字典特徵抽取、文字特徵抽取（CountVectorizer、TfidfVevtorizer）、中文文字特徵抽取）

sklearn資料集 1 scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*()

機器學習進度03（instacart降維案例、總結）

案例：探究使用者對物品類別的喜好細分降維資料如下： order_products__prior.csv：訂單與商品資訊

iOS逆向學習之九（深入研究Mach-O結構）

Mach-O基本結構回顧在深入學習Mach-O檔案之前，先來回顧一下之前學習的Mach-O的基本結構，可以到官網檢視Mach-O檔案的介紹

類比電子技術不掛科學習筆記3（放大電路的分析方法）

文章目錄一、放大電路基礎（2~4分）二、放大電路的分析方法（10分）一、放大電路基礎（2~4分）

教你如何正確高效的學習web前端（適用於新手小白）

近幾年，web前端開發工程師越來越火了，薪資待遇也快接近後端開發工程師了。很多準備入行前端開發工程師的小夥伴們，不知道準備得怎麼樣了呢?

第160天學習打卡（專案穀粒商城 2）

Docker 安裝redis docker pull redismkdir -p /home/redis/conftouch /home/redis/conf/redis.confdocker run -p 6379:6379 --name redis \\-v /home/redis/data:/data \\-v /home/redis/conf/redis.conf:/

msp430f169學習-ADC模組（暫存器的說明）

ADC暫存器的說明： 1、ADC12CTL0 - 轉換控制暫存器0 Bits 15-12 ：SHT1x取樣保持定時0.定義對應於ADC12MEM8~ADC12MEM5的取樣時間與取樣時鐘ADC12CLK的關係如下表

Vue實戰--學習筆記520（v-if 切換輸入內容）

<!DOCTYPE html> <html xmlns=\"http://www.w3.org/1999/xhtml\"> <head runat=\"server\">

第124天學習打卡（知識點回顧反射 Class類）

反射 Reflection Reflection(反射) 是java被視為動態語言的關鍵，反射機制允許程式在執行期藉助於Reflection API取得任何類的內部資訊，並能直接操作任意物件的內部屬性及方法

第281天學習打卡（知識點回顧， springboot 斷言）

知識點回顧 springboot 斷言（assertions）斷言(assertions)是測試方法中的核心部分，用來對測試需要滿足的條件進行驗證。這些斷言方法都是org.junit.jupiter.api,Assertions的靜態方法。JUnit 5內建的斷言可以分成

spark學習進度26（spark sql程式設計初級實踐）

Spark SQL 基本操作：

(1) 查詢所有資料；

(2) 查詢所有資料，並去除重複的資料；

(3) 查詢所有資料，列印時去除 id 欄位；

(4) 篩選出 age>30 的記錄；

(5) 將資料按 age 分組；

(6) 將資料按 name 升序排列；

(7) 取出前 3 行資料；

(8) 查詢所有記錄的 name 列，併為其取別名為 username；

(9) 查詢年齡 age 的平均值；

(10) 查詢年齡 age 的最小值。

程式設計實現將 RDD 轉換為 DataFrame ：

程式設計實現利用 DataFrame 讀寫 MySQL 的資料：

（1）在 MySQL 資料庫中新建資料庫 sparktest，再建立表 employee，包含如表 6-2 所示的 兩行資料。

（2）配置 Spark 通過 JDBC 連線資料庫 MySQL，程式設計實現利用 DataFrame 插入如表 6-3 所 示的兩行資料到 MySQL 中，最後打印出 age 的最大值和 age 的總和。

相關推薦

（1）在 MySQL 資料庫中新建資料庫 sparktest，再建立表 employee，包含如表 6-2 所示的兩行資料。

（2）配置 Spark 通過 JDBC 連線資料庫 MySQL，程式設計實現利用 DataFrame 插入如表 6-3 所示的兩行資料到 MySQL 中，最後打印出 age 的最大值和 age 的總和。