Spark DataFrame常用API

阿新 • • 發佈：2020-08-20

Spark DataFrame常用API

package com.imooc.bigdata.chapter04

import org.apache.spark.sql.{DataFrame, SparkSession}

object DataFrameAPIApp {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().master("local").appName("DataFrameAPIApp").getOrCreate()
    import spark.implicits._


     val people: DataFrame = spark.read.json("E:\\06-work\\03-java\\01-JavaCodeDome\\SparkSqlCode\\sparksql-train\\data\\people.json")

     people.printSchema()  // 檢視DF的內部結構：列名、列的資料型別、是否可以為空

    people.show() // 展示出DF內部的資料

    // TODO... DF裡面有兩列，只要name列 ==> select name from people
    people.select("name").show()
    people.select($"name").show()

    // TODO...  select * from people where age > 21
    people.filter($"age" > 21).show()
    people.filter("age > 21").show()

    // TODO... select age, count(1) from people group by age
    people.groupBy("age").count().show()

    // TODO... select name,age+10 from people
     people.select($"name", ($"age"+10).as("new_age")).show()


    // TODO... 使用SQL的方式操作
    people.createOrReplaceTempView("people")
    spark.sql("select name from people where age > 21").show()


    val zips: DataFrame = spark.read.json("E:\\06-work\\03-java\\01-JavaCodeDome\\SparkSqlCode\\sparksql-train\\data\\zips.json")
    zips.printSchema()  // 檢視schema資訊

    /**
      * 1）loc的資訊沒用展示全，超過一定長度就使用...來展示
      * 2）只顯示了前20條
      * show() ==> show(20) ==> show(numRows, truncate = true)
      */
    zips.show(10, false)

    zips.head(3).foreach(println)
    zips.first()
    zips.take(5)

    val count: Long = zips.count()
    println(s"Total Counts: $count")

    // 過濾出大於40000，withColumnRenamed:欄位重新命名
     zips.filter(zips.col("pop") > 40000).withColumnRenamed("_id","new_id").show(10,false)


    import org.apache.spark.sql.functions._
    // 統計加州pop最多的10個城市名稱和ID  desc是一個內建函式
    zips.select("_id","city","pop","state").filter(zips.col("state") === "CA").orderBy(desc("pop")).show(10,false)

    zips.createOrReplaceTempView("zips")
    spark.sql("select _id,city,pop,state from zips where state='CA' order by pop desc limit 10").show()


    spark.stop()
  }
}

Spark DataFrame常用API

Spark DataFrame常用API package com.imooc.bigdata.chapter04 import org.apache.spark.sql.{DataFrame, SparkSession}

ArrayList常用API原始碼分析

3.1、ArrayList 簡介：底層是可改變大小的陣列結構，實現了list介面，執行緒不安全，可以加入null元素，元素有序，允許重複。適合查詢，不適合指定位置的插入（adding n elements requires O(n) time）、刪除操作。

pandas和spark dataframe互相轉換例項詳解

這篇文章主要介紹了pandas和spark dataframe互相轉換例項詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

網路IO-IO操作的常用API

本地磁碟檔案操作之File File類簡介 File類是Java中為檔案進行建立、刪除、重新命名、移動等操作而設計的一個類。它是屬於Java.io包下的類。

openresty 常用API學習

ngx.exit 函式原型: ngx.exit(status) 函式說明: 中斷當前請求，並將status返回給nginx ngx.worker.exiting

常用API - 包裝類、System類

包裝類概述 Java提供了兩個型別系統，基本型別與引用型別，使用基本型別在於效率。

常用API - 時間日期類

Date類概述 java.util.Date類表示特定的瞬間，精確到毫秒。繼續查閱Date類的描述，發現Date擁有多個建構函式，只是部分已經過時，但是其中有未過時的建構函式可以把毫秒值轉成日期物件。

常用API - 字串

String類 java.lang.String類代表字串 Java 程式中的所有字串字面值（如 "abc" ）都作為此類的例項實現。

常用API - Arrays、Math、Object

Arrays類概述此類包含用來運算元組（比如排序和搜尋）的各種方法。此類還包含一個允許將陣列作為列表來檢視的靜態工廠。

常用API - Scanner、Random、ArrayList

API 概述 API(Application Programming Interface)，應用程式程式設計介面。 Java API是一本程式設計師的字典，是JDK中提供給我們使用的類的說明文件。

Apache的POI常用api

目前常見讀寫Excel的工具類開源javaAPI有兩種方式，一個是JXL（Java Excel API）官網地址：http://jexcelapi.sourceforge.net/一個是Apache的POI（Poor Obfuscation Implementation）官網地址：http://poi.apache.o