Spark開發-Spark中型別安全UDAF開發示例

阿新 • • 發佈：2020-11-19

Spark開發UDAF

 通過對原始碼中的示例程式碼進行實際演練，對各個功能進行了解，以及排除開發中的錯誤
  System.out.println(); 在UDAF中可以用來輔助一些判斷

開發示例程式碼

`
import org.apache.spark.sql.*;
import org.apache.spark.sql.expressions.Aggregator;
import java.io.Serializable;
import java.util.Arrays;
import java.util.List;
public class MeanTypeUDAF  implements Serializable{
/**
 * 輸入資料型別 IN：輸入資料型別
 */
public static class MyEmployee implements Serializable {
    private String name;
    private long salary;
    /**
     * 類中添加了一個無引數的建構函式，問題解決
     * 資料型別 long 和 Long
     */
    public   MyEmployee(){}

    private   MyEmployee(String name, long salary){
        this.name = name;
        this.salary = salary;
    }
    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public long getSalary() {
        return salary;
    }

    public void setSalary(long salary) {
        this.salary = salary;
    }

}

/**
 * 輸出資料型別  OUT：輸出資料型別
 */
public static class AverageBuffer implements Serializable {
    private long sum;
    private long count;
    /**
     * 類中添加了一個無引數的建構函式，問題解決
     * 資料型別 long 和 Long
     */
    public  AverageBuffer(){ }
    private AverageBuffer(long sum, long count){
        this.sum = sum;
        this.count = count;
    }

    public long getSum() {
        return sum;
    }
    public long getCount() {
        return count;
    }
    public void setSum(long sum) {
        this.sum = sum;
    }
    public void setCount(long count) {
        this.count = count;
    }
}

/**
 * abstract class Aggregator[-IN, BUF, OUT] extends Serializable
 *     IN：輸入資料型別
 *    BUF：緩衝區資料型別
 *    OUT：輸出資料型別
 */
public static class MyAverage extends Aggregator<MyEmployee, AverageBuffer , Double>  {
    /**
     * 中間結構的輸入資料結構 Encoder.bean bufferEncoder: Encoder[BUF]
     */
    @Override
    public Encoder<AverageBuffer> bufferEncoder() {
        return Encoders.bean(AverageBuffer.class);
    }

    /**
     * 聚合函式的輸出資料結構 Encoders.DOUBLE()
     */
    @Override
    public Encoder<Double> outputEncoder() {
        return Encoders.DOUBLE();
    }

    /**
     * aggregation 初始化  b + zero = b
     * 初始化緩衝區
     * zero: BUF
     */
    @Override
    public AverageBuffer zero() {
        return new AverageBuffer(0L, 0L);
    }

    /**
     *  給聚合函式傳入一條新資料進行處理
     *  buffer裡面存放著累計的執行結果，input是當前的執行結果
     *  reduce(b: BUF, a: IN): BUF
     */
    @Override
    public AverageBuffer reduce(AverageBuffer buffer, MyEmployee employee) {
        long newSum = buffer.getSum() + employee.getSalary();
        long newCount = buffer.getCount() + 1;
        buffer.setSum(newSum);
        buffer.setCount(newCount);
        return buffer;
    }

    /**
     *  合併聚合函式緩衝區-全域性聚合 merge(b1: BUF, b2: BUF): BUF
     */
    @Override
    public AverageBuffer merge(AverageBuffer b1, AverageBuffer b2) {
        long mergedSum = b1.getSum() + b2.getSum();
        long mergedCount = b1.getCount() + b2.getCount();
        b1.setSum(mergedSum);
        b1.setCount(mergedCount);
        return b1;
    }

    /**
     * 計算最終結果 finish(reduction: BUF): OUT
     */
    @Override
    public Double finish(AverageBuffer reduction) {
        return ((double) reduction.getSum()) / reduction.getCount();
    }
}
public static void main(String[] args) {
    SparkSession spark = SparkSession
            .builder()
            .appName("Java Spark SQL data sources example")
            .config("spark.some.config.option", "some-value")
            .master("local[2]")
            .getOrCreate();
    // Create an instance of a Bean class
    List<MyEmployee> Da = Arrays.asList(
            new MyEmployee("CFF",30L),
            new MyEmployee("CFAF",50L),
            new MyEmployee("ADD",10L)
    );
    Encoder<MyEmployee> personEncoder = Encoders.bean(MyEmployee.class);
    Dataset<MyEmployee> itemsDataset = spark.createDataset( Da, personEncoder);
    itemsDataset.printSchema();
    itemsDataset.show();
    System.out.println(itemsDataset.head().getName());
    System.out.println(itemsDataset.head().getSalary());
    MyAverage myAverage = new MyAverage();
    System.out.println("############");
  // Convert the function to a `TypedColumn` and give it a name
    //使用TypedColumn，目的是為了能在Dataset中使用
    TypedColumn<MyEmployee, Double> averageSalary = myAverage.toColumn().name("average_salary");
    itemsDataset.printSchema();
    Dataset<Double> result = itemsDataset.select(averageSalary);
    result.show();
}
}`

說明

使用UDAF的型別安全的示例，同時也是對Dataset中Bean的資料來源做個簡單的使用

參考

  http://spark.apache.org/docs/latest/sql-ref-functions-udf-aggregate.html

Spark開發-Spark中型別安全UDAF開發示例

Spark開發UDAF 通過對原始碼中的示例程式碼進行實際演練，對各個功能進行了解，以及排除開發中的錯誤

Spark開發-Spark中的設計模式_建立型模式大類

設計模式原則：建立型模式這些設計模式提供了一種在建立物件的同時隱藏建立邏輯的方式，而不是使用 new 運算子直接例項化物件。

Spark開發-Spark記憶體溢位原因以及解決方式

報錯情況 Container killed by YARN for exceeding memory limits. 1*.4 GB of 1* GB physical memory used.

淺談Java開發中的安全編碼問題

1 - 輸入校驗編碼原則：針對各種語言本身的保留字元，做到資料與程式碼相分離。

Spark的RDD中key-value型別RDD處理函式reduceByKey,aggregateByKey,foldBykey和combineByKey理解

技術標籤：大資料scalaspark大資料scala reduceByKey: 讓相同的key進行分割槽內聚合，讓相同key分割槽間聚合，這裡涉及到了分割槽內預聚合，所以與groupByKey區別在於，groupByKey中shuffle過程資料量不會操作，

Spark權威指南(中文版)----第16章開發Spark應用程式

在第15章中，您瞭解了Spark如何在叢集上執行程式碼。現在，我們將向您展示開發一個獨立的Spark應用程式並將其部署到叢集上是多麼容易。我們將使用一個簡單的模板來實現這一點，該模板分享了一些關於如何構建應用程式

Vue&Element開發框架中增加工作流處理，檢視申請單中整合多個處理型別的處理

關於我在Winform框架、混合框架、Bootstrap開發框架中的簡易審批性工作流模組，我寫過不少文章，有興趣可以參考《工作流模組》的隨筆進行了解，本篇隨筆在完成了Vue&Element開發框架中整合工作流內容後，對其中各個

全棧專案|小書架|伺服器開發-NodeJS 中使用 Sequelize 操作 MySQL資料庫

安裝官網：sequelize.org/v5/manual/g… 安裝sequelize及資料庫連線驅動 npm install --save sequelize

在VSCode中如何配置Python開發環境

之前編寫Python更多的是使用pycharm作為編譯器進行開發，但是個人感覺用起來比較笨重，而且還收費的，需要進行破解才能使用。後來發現vscode這個軟體，覺得很輕便，而且和之前使用的vs2018風格一樣。

C#開發BIMFACE系列39 網頁整合開發3：審圖系統中三維模型比對

系列目錄【已更新最新開發文章，點選檢視詳細】　　在建築施工圖審查系統中，設計單位提交設計完成的模型/圖紙，審查專家審查模型/圖紙。審查過程中如果發現不符合規範的地方，則流程退回到設計單位，設計單位人員

php開發api介面資料安全

API介面安全的介紹前三點我們可以使用加密的方式來解決，第四點我們寫程式碼時要注意防xss和sql注入等。設定基本引數首先是介面訪問的安全性的保障，不是誰想對介面訪問就能訪問的，解決思想：一般我們可以設定一些訪

記一次實際開發過程中遇到事務報錯問題 Transaction synchronization is not active

一：問題場景在一次http請求的後臺介面中返回結果中出現了這個錯誤資訊“Transaction synchronization is not active”，意思是“事務同步器沒有啟用”，但是被呼叫的介面已經添加了@Transacti

vue開發過程中跨域問題解決

0x00 簡介我們在進行vue的開發過程中經常會遇到跨域問題，常用的解決方法是通過devServer代理做介面的轉發。

js中的模組化開發（前端、後端）

js中的模組化開發後端的模組化開發使用commenJs,使用路由形成入口檔案，每一個介面是一個檔案

SAP WebClient UI開發工具中attribute資料夾展開的實現原理分析

For project reason I need to figure out the logic how the field list is assembled when folder “Attributes” for a given context node is expanded in CRM WebClient UI workbench:

Spark專案實戰從0到1之（6）Spark 讀取mysql中的資料

Spark（直接讀取mysql中的資料）兩種方法的目的：進行mysql資料的資料清洗方法一：

Android小部件Widget開發過程中的坑和問題小結

概述官方參考 Build an App Widget 效果圖放張效果圖，這是我玩的桌面 app 資料夾 AndroidManifest.xml

開發環境中手動篡改fisco bcos賬本交易資料實驗

一、環境準備目的把已經上鍊的資料修改掉，比如把下面的input屬性中的65改為56：

HL7標準V3開發框架中個模型的關係

>>> HL7標準V3的開發過程是一個模型驅動的過程，不同階段應用不同的模型。

hive on spark 的nvl函式型別一致

報錯：[42000][3] Error while processing statement: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check st

Spark開發-Spark中型別安全UDAF開發示例

Spark開發UDAF

開發示例程式碼

說明

參考

相關推薦