spark api學習之Dataset

阿新 • • 發佈：2018-11-26

toDF
toDF方法是將Dataset轉換成Dataframe，當然，如果引入了隱式轉換，則可以將rdd轉換成Dataframe,

  import sparkSession.implicits._
  val sourceRdd = sparkSession.sparkContext.makeRDD(Seq(1, 2, 3, 4))
  val sourceDF = sourceRdd.toDF("num")

as[U : Encoder]: Dataset[U]
將dataset的行資料轉換型別，並返回新的dataset

val sourceDF = sparkSession.sparkContext.makeRDD(
  Seq(("tom z", 60, 18),
    ("jim x", 50, 20),
    ("tom y", 68, 18),
    ("jim t", 70, 20),
    ("jerry l", 90, 22)
  )).toDF("name", "score", "age")
val sourceFormatDF=sourceDF.as[(String, String, String)]

agg
在Dataset上的聚合函式，官方提供了4種過載方法，即4種用法

import sparkSession.implicits._
//建立rdd
val sourceRdd = sparkSession.sparkContext.makeRDD(
 Seq(("tom", 60, 18),
  ("jim", 50, 20),
  ("tom", 68, 18),
  ("jim", 70, 20),
  ("jerry", 90, 22)
 ))
//建立dataFrame
val sourceDF = sourceRdd.toDF("name", "score", "age")

1.agg

(aggExpr: (String, String), aggExprs: (String, String)*)

sourceDF.agg(("score" -> "max"), ("age" -> "avg")).show()

result:
在這裡插入圖片描述
2.agg(exprs: Map[String, String])

sourceDF.groupBy("name").agg(Map("score" -> "min", "score" -> "sum")).show()

result:
在這裡插入圖片描述
3.agg(exprs: java.util.Map[String, String])
和用法二一樣，只是引數是java的map

4.agg(expr: Column, exprs: Column*)

sourceDF.groupBy("name").agg(max("score"), count("age")).show()

result:
在這裡插入圖片描述

na:DataFrameNaFunctions
返回型別是DataFrameNaFunctions用以處理dataset中缺失的資料
```
import sparkSession.implicits._
val testDF = sparkSession.sparkContext.makeRDD(
  Seq(("a", null),
    ("b", "hj"),
    ("c", null)
  )).toDF("x", "y")
```
1.drop:DataFrame
drop用來刪除包含 null or NaN的行。drop可以傳入兩類引數，第一類是how:String，如果傳入的是"any"，那麼只要包含null or NaN的行就會被刪除，而"all"則表示如果這個行每一列都是null or NaN才會被刪除，預設是"any"。第二類是cols:Array[String]/Seq[String]，用來指定要被處理的列，預設是對所有列進行處理
```
 testDF.na.drop().show()
```
result:

2.fill
fill用來替換 null or NaN。fill可以傳入兩類引數，第一類是value:String/Double，用來替換null or NaN的值；第二類則是cols:Seq[String]，用來指定被處理的列，沒有被指定的列的 null or NaN則不會被替換，預設是所有列
```
testDF.na.fill("def").show()
```
result:

3.replace[T]:DataFrame
用來替換指定的值。replace可以傳入兩類引數，第一類是col:String/Seq[String]，表示要替換的列；第二類是replacement:Map[T, T]，表示要被替換的目標值和替換值。
```
testDF.na.replace[String]("x",Map("c"->"d")).show()
```
result:
replace
schema
返回dataset的schema
printSchema
將schema以tree的形式輸出到控制檯
explain
輸出spark sql的執行計劃
dtypes
將列名和型別以陣列的形式返回
columns
將列名以陣列的形式返回
show
展示dataset的資料。官方有2個地方需要注意的，第一，展示的個數預設是20；第二，展示的字元長度預設也是20，超過20的字元會被省略。當然這兩個引數是可以自定義的，所以官方提供了show的5種過載方法，朋友們可以自行查閱原始碼以進一步瞭解
distinct
根據輸入dataframe的各列組合去重，當兩行的每一列資料都同等時，這兩行會被去重
checkpoint
給dataset設定檢查點
cache
將Dataset持久化，持久化級別是“MEMORY_AND_DISK”
persist(newLevel: StorageLevel)
可以選擇Dataset持久化的級別
unpersist
將持久化的Dataset從磁碟或者記憶體中去掉
coalesce
coalesce的作用是合併同一機器上的多個partition，目的是解決多個partition資料量差異很大的case帶來的資源浪費
repartition(numPartitions: Int)
資料重新分割槽，可以設定引數來設定返回的分割槽數
collect
返回dataset的所有行資料
take
返回dataset的前幾行
first
返回dataset的第一行
head(n: Int)
返回dataset的前幾行
drop(col: Column)
刪除掉某列
withColumnRenamed(existingName: String, newName: String)
更改列名
withColumn(colName: String, col: Column)
給已有的dataset新增新的列

explode
將dataset的一列分成多行的操作
例子：

import sparkSession.implicits._
val sourceRdd = sparkSession.sparkContext.makeRDD(
  Seq(("tom z", 60, 18),
    ("jim x", 50, 20),
    ("tom y", 68, 18),
    ("jim t", 70, 20),
    ("jerry l", 90, 22)
  ))
val sourceDF = sourceRdd.toDF("name", "score", "age")
sourceDF.select(explode(split(col("name"), " ")).as("new_name")).show()

result:
在這裡插入圖片描述

transform

未完待續。。。。。。。。。。。。。。。。。

spark api學習之Dataset

toDF toDF方法是將Dataset轉換成Dataframe，當然，如果引入了隱式轉換，則可以將rdd轉換成Dataframe, import sparkSession.implicits._ val sourceRdd = sparkSession.sparkCont

spark api學習之GraphOps類

GraphOps類是圖計算領域spark graphx的圖操作類，Graph類例項也能用GraphOps的方法，因為如果Graph類例項要用到GraphOps的方法時jvm會自動將Graph型別隱式轉換成GraphOps型別來不及解釋了，先建個圖 //定義樣本資料 val rdd =

zabbix--api學習之路--get_hostgroup獲取

獲取 document lib 返回 quest cat ber param -s api:hostgroup.get url:https://www.zabbix.com/documentation/3.4/zh/manual/api/reference/hostgro

spark 原始碼學習之列印執行緒堆疊

spark頁面中有個列印executor的堆疊的，很好用，最近自己的web專案也想把堆疊用servlet的方式去展現出來，於是跟了下spark原始碼 SparkContext中： /** * Called by the web UI to ob

Spark機器學習之特徵提取、選擇、轉換

本節介紹了處理特徵的演算法，大致分為以下幾組： 1、提取：從“原始”資料提取特徵 2、轉換：縮放，轉換或修改要素 3、選擇：從一組較大的要素中選擇一個子集 4、區域性敏感雜湊（LSH）：這類演算法將特徵變換的方面與其他演算法

Spark機器學習之--邏輯迴歸

Spark 利用邏輯迴歸做申請評分卡，上乾貨 val spark=SparkSession.builder().appName("LRTest").master("local[*]").getOrCreate() val sc=spark.sparkContex

Spark機器學習之-實時聚類演算法呼叫

Spark MLIB中的Kmenas聚類演算法，資料通過SparkStreaming 實時拉取kafka中的資料，並呼叫已經訓練好的聚類模型；根據讀取的資料實時的進行分類package com.demo.cn.streaming import org.apache.kafk

淘寶API學習之道：淘寶TOP之API介面接入教程

作為一箇中小型網站開發者，淘寶API的開放大大縮短了網站的開發週期和運作效率，面對海量的資料，開發者只要仔細閱讀開發文件，熟悉相應的介面，就可以把資料匯入自己的網站，這樣就不必望洋興嘆了。目前淘寶TOP的API介面正日益完善，但相應的介面和開發文件還不是很全，經過了3天的仔

Spark機器學習之模型選擇和超引數調整

模型選擇（超引數調諧）ML中的一個重要任務是模型選擇，或使用資料找到給定任務的最佳模型或引數。這也叫調音。可以針對個體估算器（如Logistic迴歸）或包括多個演算法，特徵化和其他步驟的整個管道完成調整。使用者可以一次調整整個流水線，而不是單獨調整管道中的每個元素。

百度地圖JavaScript API 學習之自定義標註圖示（二）

地圖繪製之新增自定義標註圖示（二）官方提供了兩種方法來自定義標註圖示：通過引數MarkerOptions的icon屬性進行設定使用Marker.setIcon()方法。第二

Spark機器學習之分類與迴歸

本頁面介紹了分類和迴歸的演算法。它還包括討論特定類別的演算法的部分，如線性方法，樹和集合體。目錄分類 Classification -----------邏輯迴歸 Logistic regression -------------------二項式邏輯迴

Windows API學習之路（二）

今天要講的是DeleteFile這個函式，這個函式用來刪除一個檔案函式原型：BOOL WINAPI DeleteFile( _In_ LPCTSTR lpFileName // 刪除檔名 );引數lpFileName 輸入引數所要刪除的檔案的相對路徑（如”1.txt”相

ags js api學習之dojo初步

說明：（1）dijit是dojo中介面控制元件的總稱，每個Dijit控制元件都是由Dojo類以及控制元件中使用的圖片，CSS等資原始檔共同組成；（2）dojo裡面包含核心類dojo.js 2、新建HTML文件，引用dojo.js檔案和CSS檔案，分兩種方式：（1）線

【Spark-core學習之五】 RDD寬窄依賴 & Stage

spark red schedule 例如 shell 落地版本進行規則環境　　虛擬機：VMware 10 　　Linux版本：CentOS-6.5-x86_64 　　客戶端：Xshell4　　FTP：Xftp4　　jdk1.8　　scala-2.10.4(依賴jd

【Spark-core學習之六】 Spark資源調度和任務調度

重新缺點 mage 註意負責如果 blog 高層 www 環境　　虛擬機：VMware 10 　　Linux版本：CentOS-6.5-x86_64 　　客戶端：Xshell4　　FTP：Xftp4　　jdk1.8　　scala-2.10.4(依賴jdk1.8)　　s

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

表示般的機構文件 cnblogs opened csv文件 mas htm 導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集，從對數據集進行探索，數據預處理和特征工程，到學習

python學習之ansible api

uem 是否 password inventory latest items truct nbsp att Python API 2.0 在2.0的事情開始更復雜一些，但是你會得到更多離散和可讀的類： #!/usr/bin/env python import json

Spark學習之第一個程序打包、提交任務到集群

4.4.2 2.6.0 reat apach import chmod 程序 rsa cas 1、免秘鑰登錄配置： ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys ch

Scala學習之路（一）Spark初識

海量處理 apache .org 流式 height 計算平臺提高結構化數據一、官網介紹官網地址：http://spark.apache.org/ Apache Spark™是用於大規模數據處理的統一分析引擎。從右側最後一條新聞看，Spar

Spark學習之路（二）Spark2.3 HA集群的分布式安裝

serve html 元數據不安裝 rec ive cut 再次 apps 一、下載Spark安裝包 1、從官網下載 http://spark.apache.org/downloads.html 2、從微軟的鏡像站下載 http://mirrors.hust.

spark api學習之Dataset

相關推薦