Spark 2.4.0程式設計指南--spark dataSet action

阿新 • • 發佈：2018-12-26

Spark 2.4.0程式設計指南–spark dataSet action

在這裡插入圖片描述

視訊

Spark 2.4.0程式設計指南–spark dataSet action(bilibili視訊) : https://www.bilibili.com/video/av38193405/?p=3

文件

(官網文件): http://spark.apache.org/docs/2.4.0/sql-getting-started.html

前置條件

已安裝好java(選用的是java 1.8.0_191)
已安裝好scala(選用的是scala 2.11.121)
已安裝好hadoop(選用的是Hadoop 3.1.1)
已安裝好spark(選用的是spark 2.4.0)

技能標籤

Spark session 建立
在Spark 2.0之後，RDD被資料集(Dataset)取代，保留RDD舊api
資料集資料集介紹
讀取本地檔案(txt,json),HDFS檔案
對txt格式檔案資料遍歷(行資料轉成物件)
對json格式檔案資料遍歷(直接轉物件)

資料集的action操作
collect,collectAsList,count,describe,first,foreach,head,reduce,show,take,takeAsList,toLocalIterator
官網: http://spark.apache.org/docs/2.4.0/sql-getting-started.html

DataSet(資料集)

資料集是分散式資料集合。資料集是Spark 1.6中新增的一個新介面，它提供了RDD的優勢（強型別，使用強大的lambda函式的能力）以及Spark SQL優化執行引擎的優點。資料集可以從JVM物件構造，然後使用功能轉換（map，flatMap，filter等）進行操作。資料集API在Scala和Java中可用。 Python沒有對Dataset API的支援。但由於Python的動態特性，資料集API的許多好處已經可用（即您可以通過名稱自然地訪問行的欄位row.columnName）。 R的情況類似。

BaseSparkSession

公用得到SparkSession的方法

def sparkSession(isLocal:Boolean = false): SparkSession = {

    if(isLocal){
      master = "local"
      val spark = SparkSession.builder
        .master(master)
        .appName(appName)
        .getOrCreate()
      //spark.sparkContext.addJar("/opt/n_001_workspaces/bigdata/spark-scala-maven-2.4.0/target/spark-scala-maven-2.4.0-1.0-SNAPSHOT.jar")
      //import spark.implicits._
      spark
    }else{
      val spark = SparkSession.builder
        .master(master)
        .appName(appName)
        .config("spark.eventLog.enabled","true")
        .config("spark.history.fs.logDirectory","hdfs://standalone.com:9000/spark/log/historyEventLog")
        .config("spark.eventLog.dir","hdfs://standalone.com:9000/spark/log/historyEventLog")
        .getOrCreate()
     // spark.sparkContext.addJar("/opt/n_001_workspaces/bigdata/spark-scala-maven-2.4.0/target/spark-scala-maven-2.4.0-1.0-SNAPSHOT.jar")
      //import spark.implicits._
      spark
    }

  }

textFile

讀取本地檔案

    val spark = sparkSession(true)
    //返回dataFrame
    val df = spark.read.textFile("file:///"+ getProjectPath +"/src/main/resource/data/text/people.txt")
    df.show()

//    +-----------+
//    |      value|
//    +-----------+
//    |Michael, 29|
//    |   Andy, 30|
//    | Justin, 19|
//    |  Think, 30|
//    +-----------+

textFile

讀取HDFS檔案

    val spark = sparkSession(true)
    //返回dataFrame
    val df = spark.read.textFile("hdfs://standalone.com:9000/home/liuwen/data/people.txt")
    df.show()


//    +-----------+
//    |      value|
//    +-----------+
//    |Michael, 29|
//    |   Andy, 30|
//    | Justin, 19|
//    |  Think, 30|
//    +-----------+

    spark.stop()

text

讀取本地檔案

   val spark = sparkSession(true)
    //返回dataFrame
    val df = spark.read.text("file:///"+ getProjectPath +"/src/main/resource/data/text/people.txt")
    df.show()

//    +-----------+
//    |      value|
//    +-----------+
//    |Michael, 29|
//    |   Andy, 30|
//    | Justin, 19|
//    |  Think, 30|
//    +-----------+

text

讀取HDFS資料

object Run extends BaseSparkSession{

  def main(args: Array[String]): Unit = {

    val spark = sparkSession(true)
    //返回dataFrame
    val df = spark.read.text("hdfs://standalone.com:9000/home/liuwen/data/people.txt")
    df.show()

//    +-----------+
//    |      value|
//    +-----------+
//    |Michael, 29|
//    |   Andy, 30|
//    | Justin, 19|
//    |  Think, 30|
//    +-----------+

    spark.stop()
  }

}

foreach 遍歷檔案內容

物件遍歷


object Run1 extends BaseSparkSession{

  case class Person(name: String, age: Long)


  def main(args: Array[String]): Unit = {

    val spark = sparkSession(true)

    import spark.implicits._
    spark.read.textFile("file:///"+ getProjectPath +"/src/main/resource/data/text/people.txt")
      .map(line => Person(line.split(",")(0),line.split(" ")(1).trim.toLong))
        .foreach( person => println(s"name:${person.name}\t age:${person.age}"))

    spark.stop()

  }
}

first

得到dataSet的第一個元素

    val spark = sparkSession()
    val dataSet = spark.read.textFile("/home/liuwen/data/a.txt")

    println(dataSet.first()) //first裡邊呼叫的是head()
    spark.stop()

head

得到dataSet的第一個元素

    val spark = sparkSession()
    val dataSet = spark.read.textFile("/home/liuwen/data/a.text")
    println(dataSet.head()) //first裡邊呼叫的是head()

head n

得到dataSet的前n個元素

    val spark = sparkSession()
    val dataSet = spark.read.textFile("/home/liuwen/data/a.text")
    println(dataSet.head(5)) //first裡邊呼叫的是head()

count

得到dataSet 一共有多少行資料

    val spark = sparkSession()
    val dataSet = spark.read.textFile("/home/liuwen/data/a.text")
    println(dataSet.count())

collect

收集dataSet中所有行的資料，在本地輸出

    val spark = sparkSession()
    val dataSet = spark.read.textFile("/home/liuwen/data/a.txt")
    println(dataSet.collect().mkString("\n"))

collectAsList

收集dataSet中所有的資料，轉成java.util.List物件

    val spark = sparkSession(true)

    val dataSet = spark.read.textFile("/home/liuwen/data/a.txt")
    println( dataSet.collectAsList())
    import scala.collection.JavaConversions._
    for( v <- dataSet.collectAsList()) println(v)
    spark.stop()

foreache

遍歷dataSet中的每一行資料

   val spark = sparkSession(true)
    val dataSet = spark.read.textFile("/home/liuwen/data/a.txt")
    dataSet.foreach(println(_))

foreache class

以物件形式遍歷dataSet中所有的資料

object Run1 extends BaseSparkSession{

  case class Person(name: String, age: Long)


  def main(args: Array[String]): Unit = {

    val spark = sparkSession(true)

    import spark.implicits._
    spark.read.textFile("file:///"+ getProjectPath +"/src/main/resource/data/text/people.txt")
      .map(line => Person(line.split(",")(0),line.split(" ")(1).trim.toLong))
        .foreach( person => println(s"name:${person.name}\t age:${person.age}"))

    spark.stop()


  }
}

map

遍歷資料集中的每一個元素，進行map函式操作

    val spark = sparkSession()

    val dataSet = spark.read.textFile("/home/liuwen/data/a.text")
    import spark.implicits._
    val lineWordLength = dataSet.map( line => line.split(" ").size)

    println(lineWordLength.collect().mkString("\n"))

reduce

遍歷dataSet中的元素，每兩兩進行reduce函式操作

    val spark = sparkSession()

    val dataSet = spark.read.textFile("/home/liuwen/data/word.text")

    /**
      * 統計所有行單詞個數
      */
    import spark.implicits._
    val lineWordLength = dataSet.map( line => line.split(" ").size)
    val result = lineWordLength.reduce((a,b) => a + b)

    println(result)

show

以表格形式顯示dataSet資料，預設顯示前20行資料

   val spark = sparkSession()

    val dataSet = spark.read.textFile("/home/liuwen/data/word.big.cn.text")

 
    val result = dataSet.show()
    println(result)

show n

以表格形式顯示dataSet資料，預設顯示前20行資料

   val spark = sparkSession()

    val dataSet = spark.read.textFile("/home/liuwen/data/word.big.cn.text")

    /**
      * 以表格的形式顯示前3行資料
      * numRows是顯示前幾行的資料
      */

    val result = dataSet.show(3)
    println(result)

show truncate

以表格形式顯示dataSet資料，預設顯示前20行資料
引數truncate=false，是不截斷顯示所有資料，true是進截斷


    val spark = sparkSession()

    val dataSet = spark.read.textFile("/home/liuwen/data/word.big.text")

    /**
      * 以表格的形式顯示前3行資料
      * numRows是顯示前幾行的資料
      * false 不進行返回行資料截斷
      */

    val result = dataSet.show(10,false)
    println(result)

take

take 是相當於head

    val spark = sparkSession()

    val dataSet = spark.read.textFile("/home/liuwen/data/word.big.txt")
    val result = dataSet.take(10) //等於head(n)
    println(result.mkString("\n"))

describe

 val spark = sparkSession()

    val dataSet = spark.read.json("hdfs://standalone.com:9000/home/liuwen/data/json/people.json")

    dataSet.describe("name","age").show()

//    +-------+-------+------------------+
//    |summary|   name|               age|
//    +-------+-------+------------------+
//    |  count|      3|                 2|
//    |   mean|   null|              24.5|
//    | stddev|   null|7.7781745930520225|
//    |    min|   Andy|                19|
//    |    max|Michael|                30|
//    +-------+-------+------------------+

end

Spark 2.4.0程式設計指南--spark dataSet action

Spark 2.4.0程式設計指南–spark dataSet action 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.

Spark 2.4.0程式設計指南--Spark DataSources

Spark 2.4.0程式設計指南–Spark DataSources 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0程式設計指

Spark 2.4.0程式設計指南--Spark SQL UDF和UDAF

Spark 2.4.0程式設計指南–Spark SQL UDF和UDAF 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0程

Spark 2.4.0 程式設計指南--快速入門

Spark 2.4.0 程式設計指南–快速入門更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 視訊 Spark 2.4.0 程式設計指南–快速入門(b

[Spark版本更新]--Spark-2.4.0 釋出說明

2018-11-02 Apache Spark 官方釋出了 2.4.0版本，以下是 Release Notes，供參考： Sub-task [ SPARK-6236 ] - 支援大於2G的快取塊 [ SPARK-6237 ] -

spark-2.4.0-hadoop2.7-安裝部署

1. 主機規劃主機名稱 IP地址作業系統部署軟體執行程序備註 mini01 172.16.1.11【內網】 10.0.0.11 【外網】

spark-2.4.0-hadoop2.7-高可用(HA)安裝部署

1. 主機規劃主機名稱 IP地址作業系統部署軟體執行程序備註 mini01 172.16.1.11【內網】 10.0.0.11 【外網】

spark-2.4.0-hadoop2.7-簡單操作

1. 說明本文基於：spark-2.4.0-hadoop2.7-高可用(HA)安裝部署 2. 啟動Spark Shell 　　在任意一臺有spark的機器上執行 1 # --master spark://mini02:7077 連線spark

Spark 2.4.0 整合Hive 1.2.1

Spark 2.4.0 整合Hive 1.2.1 更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 apache-hive-1.2.1-bin 安裝: https://gith

Spark 2.4.0 standalone 模式安裝

Spark 2.4.0 standalone 模式安裝更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 官網文件 https://spark.apache.o

Spark-2.4.0原始碼：sparkContext

　　在看sparkContext之前，先回顧一下Scala的語法。Scala建構函式分主構造和輔建構函式，輔建構函式是關鍵字def+this定義的，而類中不在方法體也不在輔建構函式中的程式碼就是主建構函式，例項化物件的時候主建構函式都會被執行，例：　　 class person(name Strin

java8下spark-streaming結合kafka程式設計（spark 2.3 kafka 0.10）

前面有說道spark-streaming的簡單demo，也有說到kafka成功跑通的例子，這裡就結合二者，也是常用的使用之一。 1.相關元件版本首先確認版本，因為跟之前的版本有些不一樣，所以才有必要記錄下，另外仍然沒有使用scala,使用java8,spark 2.0.0,kafk

Spark2.1.0文件：Spark程式設計指南-Spark Programming Guide

1 概述從一個較高的層次來看，每一個 Spark 應用程式由兩部分組成：driver program（驅動程式）端執行的 main 函式以及在整個叢集中被執行的各種並行操作。Spark 提供的主要抽象是一個彈性分散式資料集（RDD），它是可以被並行處理且跨節點分佈的元素的

基於CentOS6.4環境編譯Spark-2.1.0原始碼

基於CentOS6.4環境編譯Spark-2.1.0原始碼 1 寫在前面的話有些小夥伴可能會問：Spark官網不是已經提供了Spark針對不同版本的安裝包了嗎，我們為什麼還需要對Spark原始碼進行編譯呢？針對這個問題我們到Spark官網: spark.a

java8下spark-streaming結合kafka程式設計（spark 2.0 & kafka 0.10）

1.相關元件版本首先確認版本，因為跟之前的版本有些不一樣，所以才有必要記錄下，另外仍然沒有使用scala,使用java8,spark 2.0.0,kafka 0.10。 2.引入maven包網上找了一些結合的例子，但是跟我當前版本不一樣，所以根本就

CDH 5.12.0 中使用 spark 2.4.2

data 支持 source dir 復制 con 方式 dataframe 進行 CDH 5.12.0 默認spark使用1.6.0，雖然spark 1.6.0支持DataFrame，但顯得有點版本過舊。需要在cdh 5.12中使用spark 2.X版本，網上搜索了一圈，

spark-2.4.3-bin-without-hadoop 啟動報錯 failed to launch: nice -n 0

錯誤日誌 [root@xy01 spark-2.4.3-bin-without-hadoop]# ./sbin/start-mas

spark(2.1.0) 操作hbase(1.0.2)

hadoop mon per bsp trac 事先 com maker scala 1、spark中引入外部jar包　　1）創建/usr/software/spark_jars目錄，放入spark操作hbase的jar包：hbase-annotations-1.0.2.

spark 2.4安裝

1、spark 官網選擇對應Hadoop的版本，之前安裝的Hadoop版本為hadoop-3.0.2，獲取下載包： wget http://mirrors.hust.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

Spark 2.1.0整合CarbonData 1.1.0

1.新建專案 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

Spark 2.4.0程式設計指南--spark dataSet action

Spark 2.4.0程式設計指南–spark dataSet action

更多資源

視訊

文件

前置條件

技能標籤

DataSet(資料集)

BaseSparkSession

textFile

textFile

text

text

foreach 遍歷檔案內容

first

head

head n

count

collect

collectAsList

foreache

foreache class

map

reduce

show

show n

show truncate

take

describe

相關推薦