Flink RetractStream示例及UDF函式實現

阿新 • • 發佈：2020-08-27

介紹

今天在Flink 1.7.2版本上跑一個Flink SQL 示例 RetractPvUvSQL，報

Exception in thread "main" org.apache.flink.table.api.ValidationException: SQL validation failed. From line 1, column 19 to line 1, column 51: Cannot apply 'DATE_FORMAT' to arguments of type 'DATE_FORMAT(<VARCHAR(65536)>, <CHAR(2)>)'. Supported form(s): '(TIMESTAMP, FORMAT)'

從提示看應該是不支援引數為字串，接下來我們自定義一個UDF函式來支援這種場景。

官網不建議使用DATE_FORMAT(timestamp, string) 這種方式

RetractPvUvSQL 程式碼

public class RetractPvUvSQL {

    public static void main(String[] args) throws Exception {
        ParameterTool params = ParameterTool.fromArgs(args);
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tEnv = TableEnvironment.getTableEnvironment(env);

        DataStreamSource<PageVisit> input = env.fromElements(
                new PageVisit("2017-09-16 09:00:00", 1001, "/page1"),
                new PageVisit("2017-09-16 09:00:00", 1001, "/page2"),

                new PageVisit("2017-09-16 10:30:00", 1005, "/page1"),
                new PageVisit("2017-09-16 10:30:00", 1005, "/page1"),
                new PageVisit("2017-09-16 10:30:00", 1005, "/page2"));

        // register the DataStream as table "visit_table"
        tEnv.registerDataStream("visit_table", input, "visitTime, userId, visitPage");
        
        Table table = tEnv.sqlQuery(
                "SELECT " +
                        "visitTime, " +
                        "DATE_FORMAT(max(visitTime), 'HH') as ts, " +
                        "count(userId) as pv, " +
                        "count(distinct userId) as uv " +
                        "FROM visit_table " +
                        "GROUP BY visitTime");
        DataStream<Tuple2<Boolean, Row>> dataStream = tEnv.toRetractStream(table, Row.class);

        if (params.has("output")) {
            String outPath = params.get("output");
            System.out.println("Output path: " + outPath);
            dataStream.writeAsCsv(outPath);
        } else {
            System.out.println("Printing result to stdout. Use --output to specify output path.");
            dataStream.print();
        }
        env.execute();
    }

    /**
     * Simple POJO containing a website page visitor.
     */
    public static class PageVisit {
        public String visitTime;
        public long userId;
        public String visitPage;

        // public constructor to make it a Flink POJO
        public PageVisit() {
        }

        public PageVisit(String visitTime, long userId, String visitPage) {
            this.visitTime = visitTime;
            this.userId = userId;
            this.visitPage = visitPage;
        }

        @Override
        public String toString() {
            return "PageVisit " + visitTime + " " + userId + " " + visitPage;
        }
    }
}

UDF實現

實現引數為字串的日期解析

public class DateFormat extends ScalarFunction {

    public String eval(Timestamp t, String format) {
        return new SimpleDateFormat(format).format(t);
    }

    /**
     * 預設日期格式：yyyy-MM-dd HH:mm:ss
     *
     * @param t
     * @param format
     * @return
     */
    public static String eval(String t, String format) {
        try {
            Date originDate = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(t);
            return new SimpleDateFormat(format).format(originDate);
        } catch (ParseException e) {
            throw new RuntimeException("日期:" + t + "解析為格式" + format + "出錯");
        }
    }
}

因為flink 已經內建DATE_FORMAT函式，這裡我們改個名字:DATEFORMAT

  //register the function
  tEnv.registerFunction("DATEFORMAT", new DateFormat());
    
    
   Table table = tEnv.sqlQuery(
        "SELECT " +
                "visitTime, " +
                "DATEFORMAT(max(visitTime), 'HH') as ts, " +
                "count(userId) as pv, " +
                "count(distinct userId) as uv " +
                "FROM visit_table " +
                "GROUP BY visitTime");

從UDF函式註冊原始碼看，自定義函式在Table API或SQL API 都可以使用

  /**
    * Registers a [[ScalarFunction]] under a unique name. Replaces already existing
    * user-defined functions under this name.
    */
  def registerFunction(name: String, function: ScalarFunction): Unit = {
    // check if class could be instantiated
    checkForInstantiation(function.getClass)

    // register in Table API

    functionCatalog.registerFunction(name, function.getClass)

    // register in SQL API
    functionCatalog.registerSqlFunction(
      createScalarSqlFunction(name, name, function, typeFactory)
    )
  }

執行的結果：

printing result to stdout. Use --output to specify output path.
6> (true,2017-09-16 10:30:00,10,1,1)
4> (true,2017-09-16 09:00:00,09,1,1)
4> (false,2017-09-16 09:00:00,09,1,1)
6> (false,2017-09-16 10:30:00,10,1,1)
4> (true,2017-09-16 09:00:00,09,2,1)
6> (true,2017-09-16 10:30:00,10,2,1)
6> (false,2017-09-16 10:30:00,10,2,1)
6> (true,2017-09-16 10:30:00,10,3,1)

Process finished with exit code 0

我們看下這個結果是什麼意思：

Flink RetractStream 用true或false來標記資料的插入和撤回，返回true代表資料插入，false代表資料的撤回，在網上看到一個圖很直觀地說明RetractStream 為什麼存在?

看我們的source資料，9點與10點半的資料剛開始pv,uv都為新增，對應的第二條資料來的時候，pv發生變化，此時要撤掉第一次的結果，更新為新的結果資料，就好比我們有時候更新資料的一種辦法先刪除再插入，後面到來的資料以此類推。

總結

1.Flink處理資料把錶轉換為流的時候，可以使用toAppendStream與toRetractStream，前者適用於資料追加的場景，後者適用於更新，刪除場景

2.FlinkSQL中可以使用我們自定義的函式.Flink UDF自定義函式實現:evaluation方法必須定義為public，命名為eval。evaluation方法的輸入引數型別和返回值型別決定著函式的輸入引數型別和返回值型別。evaluation方法也可以被過載實現多個eval。同時evaluation方法支援變引數，例如：eval(String... strs)。

Flink RetractStream示例及UDF函式實現

介紹

RetractPvUvSQL 程式碼

UDF實現

總結

Flink RetractStream示例及UDF函式實現

【轉】記憶體管理內幕mallco及free函式實現--簡易記憶體分配器、記憶體池、GC技術

Qt 實現鋼筆畫線效果示例及詳細原理

大資料 java hive udf函式的示例程式碼（手機號碼脫敏）

有一個班4個學生,5門課程 1求第1門課程的平均分; 2找出有兩門以上課程不及格的學生,輸出他們的學號和全部課程成績及平均成績; 3找出平均成績在90分以上或全部課程成績在85分以上的學生。4分別編3個函式實現以上3個要求。

Jquery使用each函式實現遍歷及陣列處理

Spark專案實戰從0到1之（11）實現手機號碼脫敏的udf函式執行過程

Python偏函式實現原理及應用

Flink開發_Flink函式實現

python中lower函式實現方法及用法講解

淺析Java註解的意義、分類、用途、如何自定義註解使用示例及Java註解的實現原理的分析

Flink基礎（66）：FLINK SQL(43) 自定義函式（二）自定義標量函式（UDF）

【Android 應用開發】動態許可權管理示例 ( 使用原生程式碼實現 | 申請許可權 | 判定許可權申請結果 | 判定 “ 不再詢問 “ 情況 )及程式碼示例

實現call、apply 及 bind 函式

Elasticsearch索引增量統計及定時郵件實現

Spring Boot Security Oauth2之客戶端模式及密碼模式實現

C語言不使用strcat函式實現連線兩個字串功能程式碼

C語言用函式實現電話簿管理系統

Java時區轉換及Date類實現原理解析

Spring Bean初始化及銷燬多種實現方式

Flink RetractStream示例及UDF函式實現

介紹

RetractPvUvSQL 程式碼

UDF實現

總結

相關推薦