使用Druid的sql parser做一個表資料血緣分析工具

阿新 • • 發佈：2018-12-17

前言

大資料場景下，每天可能都要在離線叢集，執行大量的任務來支援業務、運營的分析查詢。任務越來越多的時候，就會有越來越多的依賴關係，每一個任務都需要等需要的input表生產出來後，再去生產自己的output表。最開始的時候，依賴關係自然是可以通過管理員來管理，隨著任務量的加大，就需要一個分析工具來解析任務的inputs、outs，並且自行依賴上生產inputs表的那些任務。本文就介紹一個使用druid parser，來解析SQL的input、output的血緣分析工具。

建議對druid比較陌生的同學可以先看下druid的官方文件。

做一次sql的血緣分析的流程

解析sql，拿到抽象語法樹
遍歷抽象語法樹，得到from、to

使用druid解析sql到語法樹

druid提供了簡單、快速的SQL解析工具，可以很簡單拿到一段SQL的AST(抽象語法樹)。而druid對語法樹提供了多種的SQLStatement，使遍歷語法樹更加容易。

 SQLStatementParser parser = SQLParserUtils.createSQLStatementParser(sql, JdbcConstants.HIVE);
 SQLStatement stmt= parser.parseStatementList().get 
(0);

從語法樹中取出from和to

拿到語法樹之後，想辦法把from、to從語法樹中取出來就大功告成。

最初的寫法

最開始，就是簡單的遍歷一下語法樹的節點，取出from表和to表的表名。

    /**
     * 根據create或者insert的sql取出from、to
     * @param sql
     * @return
     * @throws ParserException
     */
    private static Map<String, Set<String>> getFromTo(String sql) throws 
 ParserException {
        SQLStatementParser parser = SQLParserUtils.createSQLStatementParser(sql, JdbcConstants.HIVE);
        SQLStatement stmt= parser.parseStatementList().get(0);

        Set<String> from = new HashSet<>();
        Set<String> to = new HashSet<>();
        if (stmt instanceof SQLInsertStatement) {
            SQLInsertStatement istmt = (SQLInsertStatement) stmt;
            to.add(istmt.getTableSource().toString().toUpperCase());

            SQLTableSource sts = istmt.getQuery().getQueryBlock().getFrom();
            from = getFromTableFromTableSource(sts);
        } else if (stmt instanceof SQLCreateTableStatement) {
            SQLCreateTableStatement cstmt = (SQLCreateTableStatement) stmt;
            to.add(cstmt.getTableSource().toString().toUpperCase());

            SQLTableSource sts = cstmt.getSelect().getQueryBlock().getFrom();
            from = getFromTableFromTableSource(sts);
        }

        Map<String, Set<String>> fromTo = new HashMap<>(4);
        fromTo.put("from", from);
        fromTo.put("to", to);
        return fromTo;
    }

    private static Set<String> getFromTableFromTableSource (SQLTableSource sts) {
        Set<String> from = new HashSet<>();
        if (sts instanceof SQLJoinTableSource) {
            from = getFromTableFromJoinSource((SQLJoinTableSource)sts);
        } else {
            from.add(sts.toString().toUpperCase());
        }
        return from;
    }

    private static Set<String> getFromTableFromJoinSource (SQLJoinTableSource sjts) {
        Set<String> result = new HashSet<>();
        getFromTable(result, sjts);
        return result;
    }

    // 遞迴獲取join的表list
    private static void getFromTable (Set<String> fromList, SQLJoinTableSource sjts) {
        SQLTableSource left = sjts.getLeft();
        if (left instanceof SQLJoinTableSource) {
            getFromTable(fromList, (SQLJoinTableSource)left);
        } else {
            fromList.add(left.toString().toUpperCase());
        }
        SQLTableSource right = sjts.getRight();
        if (right instanceof SQLJoinTableSource) {
            getFromTable(fromList, (SQLJoinTableSource)right);
        } else {
            fromList.add(right.toString().toUpperCase());
        }
    }

用druid更好的實現

因為是為了快速完成，所以寫的取出from、to表的部分還是存在很大的問題的。只能支援一條sql，只能支援簡單的sql語句，比如union all或者子查詢就有些無力。於是又看了一下文件，其實druid是提供了visitor方法來遍歷語法樹的，而且提供了一個簡單的SchemaStatVisitor，可以取出Sql中所有用到的表。於是就可以寫成這種格式。

public static Map<String, TreeSet<String>> getFromTo (String sql) throws ParserException {
        List<SQLStatement> stmts = SQLUtils.parseStatements(sql, JdbcConstants.HIVE);
        TreeSet<String> fromSet = new TreeSet<>();
        TreeSet<String> toSet = new TreeSet<>();
        if (stmts == null) {
            return null;
        }

        String database="DEFAULT";
        for (SQLStatement stmt : stmts) {
            SchemaStatVisitor statVisitor = SQLUtils.createSchemaStatVisitor(JdbcConstants.HIVE);
            if (stmt instanceof SQLUseStatement) {
                database = ((SQLUseStatement) stmt).getDatabase().getSimpleName().toUpperCase();
            }
            stmt.accept(statVisitor);
            Map<Name, TableStat> tables = statVisitor.getTables();
            if (tables != null) {
                final String db = database;
                tables.forEach((tableName, stat) -> {
                    if (stat.getCreateCount() > 0 || stat.getInsertCount() > 0) {
                        String to = tableName.getName().toUpperCase();
                        if (!to.contains("."))
                            to = db + "." + to;
                        toSet.add(to);
                    } else if (stat.getSelectCount() > 0) {
                        String from = tableName.getName().toUpperCase();
                        if (!from.contains("."))
                            from = db + "." + from;
                        fromSet.add(from);
                    }
                });
            }
        }

使用Druid的sql parser做一個表資料血緣分析工具

前言

做一次sql的血緣分析的流程

使用druid解析sql到語法樹

從語法樹中取出from和to

最初的寫法

用druid更好的實現

使用Druid的sql parser做一個表資料血緣分析工具

HIVE數倉資料血緣分析工具-SQL解析

sqlserver 練習題目(儲存過程：迴圈erp資料表，生成另一個表資料)

用一個表的資料更新另外一個表資料的用法(update from)

整理js開發中的實用小工具（一）：做一個整合儲存的小工具

大資料離線分析工具Hive簡單介紹

用 C# 寫一個 Redis 資料同步小工具

做一個最好的自己，不盲目學資料分析

淩搟手作簡單分析做一個面包店需要多少費用？

資料庫同步表資料利器，oracle+mybatis 一個sql控制所有表增刪改 ${xxx} 和 #{xxx}的區別

NC6.5 做主子表單據釋出元資料錯誤: ORA-00001: 違反唯一約束條件 (NC65.PK_MD_BIZITFMAP)

資料結構筆記：順序表和單鏈表的對比分析

sql學習 sqlserver複製表資料到另一個表

資料庫中某個表中的某個欄位的值是用逗號隔開的多個值，根據逗號拆分並從另一個表中查出資料返回

sql server 用一個表的資料去更新另一個表

使用MySQL查詢一個表的多列資料資訊，其中一列使用Max()，存在的坑

如何將一個excel表格的資料匹配到另一個表中

mysql結構相同的資料表，資料合併到一個表

企業該如何做大資料的分析挖掘？這裡有一份參考指南

使用Druid的sql parser做一個表資料血緣分析工具

前言

做一次sql的血緣分析的流程

使用druid解析sql到語法樹

從語法樹中取出from和to

最初的寫法

用druid更好的實現

相關推薦