fastjson深度原始碼解析- 詞法和語法解析(二)

阿新 • • 發佈：2019-01-27

JSON Token解析

JSONLexerBase定義並實現了json串實現解析機制的基礎，在理解後面反序列化之前，我們先來看看並理解重要的屬性：

    /** 當前token含義 */
    protected int                            token;
    /** 記錄當前掃描字元位置 */
    protected int                            pos;
    protected int                            features;

    /** 當前有效字元 */
    protected 
 char                           ch;
    /** 流(或者json字串)中當前的位置，每次讀取字元會遞增 */
    protected int                            bp;

    protected int                            eofPos;

    /** 字元緩衝區 */
    protected char[]                         sbuf;

    /** 字元緩衝區的索引，指向下一個可寫
     *  字元的位置，也代表字元緩衝區字元數量
     */ 

    protected int                            sp;

    /**
     * number start position
     * 可以理解為 找到token時 token的首字元位置
     * 和bp不一樣，這個不會遞增，會在開始token前記錄一次
     */
    protected int                            np;

JSONLexerBase成員函式

在開始分析詞法分析實現過程中，我發現中解析存在大量重複程式碼實現或極其類似實現，重複程式碼主要解決類似c++內聯呼叫，極其相似程式碼實現我會挑選有代表性的來說明（一般實現較為複雜），沒有說明的成員函式可以參考程式碼註釋。

推斷token型別

fastjson token型別推斷當前json字串是那種型別的token, 比如是字串、花括號和逗號等等。

    public final void nextToken() {
        /** 將字元buffer pos設定為初始0 */
        sp = 0;

        for (;;) {
            /** pos記錄為流的當前位置 */
            pos = bp;

            if (ch == '/') {
                /** 如果是註釋// 或者 \/* *\/ 註釋，跳過註釋 */
                skipComment();
                continue;
            }

            if (ch == '"') {
                /** 讀取引號內的字串 */
                scanString();
                return;
            }

            if (ch == ',') {
                /** 跳過當前，讀取下一個字元 */
                next();
                token = COMMA;
                return;
            }

            if (ch >= '0' && ch <= '9') {
                /** 讀取整數 */
                scanNumber();
                return;
            }

            if (ch == '-') {
                /** 讀取負數 */
                scanNumber();
                return;
            }

            switch (ch) {
                /** 讀取單引號後面的字串，和scanString邏輯一致 */
                case '\'':
                    if (!isEnabled(Feature.AllowSingleQuotes)) {
                        throw new JSONException("Feature.AllowSingleQuotes is false");
                    }
                    scanStringSingleQuote();
                    return;
                case ' ':
                case '\t':
                case '\b':
                case '\f':
                case '\n':
                case '\r':
                    next();
                    break;
                case 't': // true
                    /** 讀取字元true */
                    scanTrue();
                    return;
                case 'f': // false
                    /** 讀取字元false */
                    scanFalse();
                    return;
                case 'n': // new,null
                    /** 讀取為new或者null的token */
                    scanNullOrNew();
                    return;
                case 'T':
                case 'N': // NULL
                case 'S':
                case 'u': // undefined
                    /** 讀取識別符號，已經自動預讀了下一個字元 */
                    scanIdent();
                    return;
                case '(':
                    /** 讀取下一個字元 */
                    next();
                    token = LPAREN;
                    return;
                case ')':
                    next();
                    token = RPAREN;
                    return;
                case '[':
                    next();
                    token = LBRACKET;
                    return;
                case ']':
                    next();
                    token = RBRACKET;
                    return;
                case '{':
                    next();
                    token = LBRACE;
                    return;
                case '}':
                    next();
                    token = RBRACE;
                    return;
                case ':':
                    next();
                    token = COLON;
                    return;
                case ';':
                    next();
                    token = SEMI;
                    return;
                case '.':
                    next();
                    token = DOT;
                    return;
                case '+':
                    next();
                    scanNumber();
                    return;
                case 'x':
                    scanHex();
                    return;
                default:
                    if (isEOF()) { // JLS
                        if (token == EOF) {
                            throw new JSONException("EOF error");
                        }

                        token = EOF;
                        pos = bp = eofPos;
                    } else {
                        /** 忽略控制字元或者刪除字元 */
                        if (ch <= 31 || ch == 127) {
                            next();
                            break;
                        }

                        lexError("illegal.char", String.valueOf((int) ch));
                        next();
                    }

                    return;
            }
        }

    }

跳過註釋

    protected void skipComment() {
        /** 讀下一個字元 */
        next();
        /** 連續遇到左反斜槓/ */
        if (ch == '/') {
            for (;;) {
                /** 讀下一個字元 */
                next();
                if (ch == '\n') {
                    /** 如果遇到換行符，繼續讀取下一個字元並返回 */
                    next();
                    return;
                    /** 如果已經遇到流結束，返回 */
                } else if (ch == EOI) {
                    return;
                }
            }
            /** 遇到`/*` 註釋的格式 */
        } else if (ch == '*') {
            /** 讀下一個字元 */
            next();
            for (; ch != EOI;) {
                if (ch == '*') {
                    /** 如果遇到*,繼續嘗試讀取下一個字元，看看是否是/字元 */
                    next();
                    if (ch == '/') {
                        /** 如果確實是/字元，提前預讀下一個有效字元後終止 */
                        next();
                        return;
                    } else {
                        /** 遇到非/ 繼續跳過度下一個字元 */
                        continue;
                    }
                }
                /** 如果沒有遇到`*\` 註釋格式, 繼續讀下一個字元 */
                next();
            }
        } else {
            /** 不符合// 或者 \/* *\/ 註釋格式 */
            throw new JSONException("invalid comment");
        }
    }

解析註釋主要分為2中，支援// 或者 /* */ 註釋格式。

掃描字串

當解析json字串是"時，會呼叫掃描字串方法。

    public final void scanString() {
        /** 記錄當前流中token的開始位置, np指向引號的索引 */
        np = bp;
        hasSpecial = false;
        char ch;
        for (;;) {

            /** 讀取當前字串的字元 */
            ch = next();

            /** 如果遇到字串結束符"， 則結束 */
            if (ch == '\"') {
                break;
            }

            if (ch == EOI) {
                /** 如果遇到了結束符EOI，但是沒有遇到流的結尾，新增EOI結束符 */
                if (!isEOF()) {
                    putChar((char) EOI);
                    continue;
                }
                throw new JSONException("unclosed string : " + ch);
            }

            /** 處理轉譯字元邏輯 */
            if (ch == '\\') {
                if (!hasSpecial) {
                    /** 第一次遇到\認為是特殊符號 */
                    hasSpecial = true;

                    /** 如果buffer空間不夠，執行2倍擴容 */
                    if (sp >= sbuf.length) {
                        int newCapcity = sbuf.length * 2;
                        if (sp > newCapcity) {
                            newCapcity = sp;
                        }
                        char[] newsbuf = new char[newCapcity];
                        System.arraycopy(sbuf, 0, newsbuf, 0, sbuf.length);
                        sbuf = newsbuf;
                    }

                    /** 複製有效字串到buffer中，不包括引號 */
                    copyTo(np + 1, sp, sbuf);
                    // text.getChars(np + 1, np + 1 + sp, sbuf, 0);
                    // System.arraycopy(buf, np + 1, sbuf, 0, sp);
                }

                /** 讀取轉譯字元\下一個字元 */
                ch = next();

                /** 轉換ascii字元，請參考：https://baike.baidu.com/item/ASCII/309296?fr=aladdin */
                switch (ch) {
                    case '0':
                        /** 空字元 */
                        putChar('\0');
                        break;
                    case '1':
                        /** 標題開始 */
                        putChar('\1');
                        break;
                    case '2':
                        /** 正文開始 */
                        putChar('\2');
                        break;
                    case '3':
                        /** 正文結束 */
                        putChar('\3');
                        break;
                    case '4':
                        /** 傳輸結束 */
                        putChar('\4');
                        break;
                    case '5':
                        /** 請求 */
                        putChar('\5');
                        break;
                    case '6':
                        /** 收到通知 */
                        putChar('\6');
                        break;
                    case '7':
                        /** 響鈴 */
                        putChar('\7');
                        break;
                    case 'b': // 8
                        /** 退格 */
                        putChar('\b');
                        break;
                    case 't': // 9
                        /** 水平製表符 */
                        putChar('\t');
                        break;
                    case 'n': // 10
                        /** 換行鍵 */
                        putChar('\n');
                        break;
                    case 'v': // 11
                        /** 垂直製表符 */
                        putChar('\u000B');
                        break;
                    case 'f': // 12
                        /** 換頁鍵 */
                    case 'F':
                        /** 換頁鍵 */
                        putChar('\f');
                        break;
                    case 'r': // 13
                        /** 回車鍵 */
                        putChar('\r');
                        break;
                    case '"': // 34
                        /** 雙引號 */
                        putChar('"');
                        break;
                    case '\'': // 39
                        /** 閉單引號 */
                        putChar('\'');
                        break;
                    case '/': // 47
                        /** 斜槓 */
                        putChar('/');
                        break;
                    case '\\': // 92
                        /** 反斜槓 */
                        putChar('\\');
                        break;
                    case 'x':
                        /** 小寫字母x, 標識一個字元 */
                        char x1 = ch = next();
                        char x2 = ch = next();

                        /** x1 左移4位 + x2 */
                        int x_val = digits[x1] * 16 + digits[x2];
                        char x_char = (char) x_val;
                        putChar(x_char);
                        break;
                    case 'u':
                        /** 小寫字母u, 標識一個字元 */
                        char u1 = ch = next();
                        char u2 = ch = next();
                        char u3 = ch = next();
                        char u4 = ch = next();
                        int val = Integer.parseInt(new String(new char[] { u1, u2, u3, u4 }), 16);
                        putChar((char) val);
                        break;
                    default:
                        this.ch = ch;
                        throw new JSONException("unclosed string : " + ch);
                }
                continue;
            }

            /** 沒有轉譯字元，遞增buffer字元位置 */
            if (!hasSpecial) {
                sp++;
                continue;
            }

            /** 繼續讀取轉譯字元後面的字元 */
            if (sp == sbuf.length) {
                putChar(ch);
            } else {
                sbuf[sp++] = ch;
            }
        }

        token = JSONToken.LITERAL_STRING;
        /** 自動預讀下一個字元 */
        this.ch = next();
    }

解析到字串的時候會寫入buffer。

掃描數字型別

    public final void scanNumber() {
        /** 記錄當前流中token的開始位置, np指向數字字元索引 */
        np = bp;

        /** 相容處理負數 */
        if (ch == '-') {
            sp++;
            next();
        }

        for (;;) {
            if (ch >= '0' && ch <= '9') {
                /** 如果是數字字元，遞增索引位置 */
                sp++;
            } else {
                break;
            }
            next();
        }

        boolean isDouble = false;

        /** 如果遇到小數點字元 */
        if (ch == '.') {
            sp++;
            /** 繼續讀小數點後面字元 */
            next();
            isDouble = true;

            for (;;) {
                if (ch >= '0' && ch <= '9') {
                    sp++;
                } else {
                    break;
                }
                next();
            }
        }

        /** 繼續讀取數字後面的型別 */
        if (ch == 'L') {
            sp++;
            next();
        } else if (ch == 'S') {
            sp++;
            next();
        } else if (ch == 'B') {
            sp++;
            next();
        } else if (ch == 'F') {
            sp++;
            next();
            isDouble = true;
        } else if (ch == 'D') {
            sp++;
            next();
            isDouble = true;
        } else if (ch == 'e' || ch == 'E') {

            /** 掃描科學計數法 */
            sp++;
            next();

            if (ch == '+' || ch == '-') {
                sp++;
                next();
            }

            for (;;) {
                if (ch >= '0' && ch <= '9') {
                    sp++;
                } else {
                    break;
                }
                next();
            }

            if (ch == 'D' || ch == 'F') {
                sp++;
                next();
            }

            isDouble = true;
        }

        if (isDouble) {
            token = JSONToken.LITERAL_FLOAT;
        } else {
            token = JSONToken.LITERAL_INT;
        }
    }

掃描Boolean

    public final void scanTrue() {
        if (ch != 't') {
            throw new JSONException("error parse true");
        }
        next();

        if (ch != 'r') {
            throw new JSONException("error parse true");
        }
        next();

        if (ch != 'u') {
            throw new JSONException("error parse true");
        }
        next();

        if (ch != 'e') {
            throw new JSONException("error parse true");
        }
        next();

        if (ch == ' ' || ch == ',' || ch == '}' || ch == ']' || ch == '\n' || ch == '\r' || ch == '\t' || ch == EOI
                || ch == '\f' || ch == '\b' || ch == ':' || ch == '/') {
            /** 相容性防禦，標記是true的token */
            token = JSONToken.TRUE;
        } else {
            throw new JSONException("scan true error");
        }
    }

掃描識別符號

    public final void scanIdent() {
        /** 記錄當前流中token的開始位置, np指向當前token前一個字元 */
        np = bp - 1;
        hasSpecial = false;

        for (;;) {
            sp++;

            next();
            /** 如果是字母或數字，繼續讀取 */
            if (Character.isLetterOrDigit(ch)) {
                continue;
            }

            /** 獲取字串值 */
            String ident = stringVal();

            if ("null".equalsIgnoreCase(ident)) {
                token = JSONToken.NULL;
            } else if ("new".equals(ident)) {
                token = JSONToken.NEW;
            } else if ("true".equals(ident)) {
                token = JSONToken.TRUE;
            } else if ("false".equals(ident)) {
                token = JSONToken.FALSE;
            } else if ("undefined".equals(ident)) {
                token = JSONToken.UNDEFINED;
            } else if ("Set".equals(ident)) {
                token = JSONToken.SET;
            } else if ("TreeSet".equals(ident)) {
                token = JSONToken.TREE_SET;
            } else {
                token = JSONToken.IDENTIFIER;
            }
            return;
        }
    }

掃描十六進位制數

    public final void scanHex() {
        if (ch != 'x') {
            throw new JSONException("illegal state. " + ch);
        }
        next();
        /** 十六進位制x緊跟著單引號 */
        /** @see com.alibaba.fastjson.serializer.SerializeWriter#writeHex(byte[]) */
        if (ch != '\'') {
            throw new JSONException("illegal state. " + ch);
        }

        np = bp;
        /** 這裡一次next, for迴圈也讀一次next, 因為十六進位制被寫成2個位元組的單字元 */
        next();

        for (int i = 0;;++i) {
            char ch = next();
            if ((ch >= '0' && ch <= '9') || (ch >= 'A' && ch <= 'F')) {
                sp++;
                continue;
            } else if (ch == '\'') {
                sp++;
                /** 遇到結束符號，自動預讀下一個字元 */
                next();
                break;
            } else {
                throw new JSONException("illegal state. " + ch);
            }
        }
        token = JSONToken.HEX;
    }

根據期望字元掃描token

    public final void nextToken(int expect) {
        /** 將字元buffer pos設定為初始0 */
        sp = 0;

        for (;;) {

            switch (expect) {
                case JSONToken.LBRACE:
                    if (ch == '{') {
                        token = JSONToken.LBRACE;
                        next();
                        return;
                    }
                    if (ch == '[') {
                        token = JSONToken.LBRACKET;
                        next();
                        return;
                    }
                    break;
                case JSONToken.COMMA:
                    if (ch == ',') {
                        token = JSONToken.COMMA;
                        next();
                        return;
                    }

                    if (ch == '}') {
                        token = JSONToken.RBRACE;
                        next();
                        return;
                    }

                    if (ch == ']') {
                        token = JSONToken.RBRACKET;
                        next();
                        return;
                    }

                    if (ch == EOI) {
                        token = JSONToken.EOF;
                        return;
                    }
                    break;
                case JSONToken.LITERAL_INT:
                    if (ch >= '0' && ch <= '9') {
                        pos = bp;
                        scanNumber();
                        return;
                    }

                    if (ch == '"') {
                        pos = bp;
                        scanString();
                        return;
                    }

                    if (ch == '[') {
                        token = JSONToken.LBRACKET;
                        next();
                        return;
                    }

                    if (ch == '{') {
                        token = JSONToken.LBRACE;
                        next();
                        return;
                    }

                    break;
                case JSONToken.LITERAL_STRING:
                    if (ch == '"') {
                        pos = bp;
                        /** 掃描字串, pos指向字串引號索引 */
                        scanString();
                        return;
                    }

                    if (ch >= '0' && ch <= '9') {
                        pos = bp;
                        /** 掃描數字, 前面已經分析過 */
                        scanNumber();
                        return;
                    }

                    if (ch == '[') {
                        token = JSONToken.LBRACKET;
                        next();
                        return;
                    }

                    if (ch == '{') {
                        token = JSONToken.LBRACE;
                        next();
                        return;
                    }
                    break;
                case JSONToken.LBRACKET:
                    if (ch == '[') {
                        token = JSONToken.LBRACKET;
                        next();
                        return;
                    }

                    if (ch == '{') {
                        token = JSONToken.LBRACE;
                        next();
                        return;
                    }
                    break;
                case JSONToken.RBRACKET:
                    if (ch == ']') {
                        token = JSONToken.RBRACKET;
                        next();
                        return;
                    }
                case JSONToken.EOF:
                    if (ch == EOI) {
                        token = JSONToken.EOF;
                        return;
                    }
                    break;
                case JSONToken.IDENTIFIER:
                    /** 跳過空白字元，如果是識別符號_、$和字母開頭，否則自動獲取下一個token */
                    nextIdent();
                    return;
                default:
                    break;
            }

            /** 跳過空白字元 */
            if (ch == ' ' || ch == '\n' || ch == '\r' || ch == '\t' || ch == '\f' || ch == '\b') {
                next();
                continue;
            }

            /** 針對其他token自動讀取下一個, 比如遇到冒號：,自動下一個token */
            nextToken();
            break;
        }
    }

這個方法主要是根據期望的字元expect，判定expect對應的token, 接下來主要分析解析物件欄位的相關api實現。

fastjson深度原始碼解析- 詞法和語法解析(二)

JSON Token解析 JSONLexerBase定義並實現了json串實現解析機制的基礎，在理解後面反序列化之前，我們先來看看並理解重要的屬性： /** 當前token含義 */ protected int

fastjson深度原始碼解析- 序列化(四)

概要 fastjson序列化主要使用入口就是在JSON.java類中，它提供非常簡便和友好的api將java物件轉換成json字串。 JSON成員函式 /** * 便捷序列化java物件，序列化物件可以包含任意泛型屬性欄位，但是

用flex & bison (lex & yacc)建立可重入(執行緒安全)的詞法分析和語法解析器

使用flex(lex)和bison(yacc)可以非常方便的建立詞法分析和語法分析器,典型的這類程式都是使用一些全域性變數進行資訊的傳遞,這也是程式預設的方式，比如：flex解析到一個string,可以通過 yylval傳遞給bison;再就是flex和bison預

fastjson深度原始碼解析- 反序列化(二)

反序列化回撥介面實現分析內部註冊的反序列化 fastjson針對常用的型別已經註冊了反序列化實現方案，根據原始碼註冊com.alibaba.fastjson.parser.ParserConfig#initDeserializers可以得到列表：

fastjson深度原始碼解析- 序列化(五)

序列化回撥介面實現分析內部註冊的序列化 fastjson針對常用的型別已經註冊了序列化實現方案：註冊的型別序列化例項是否支援序列化是否支援反序列化 Boolean BooleanCodec 是是

編譯器架構的王者LLVM——（4）簡單的詞法和語法分析

LLVM平臺，短短几年間，改變了眾多程式語言的走向，也催生了一大批具有特色的程式語言的出現，不愧為編譯器架構的王者，也榮獲2012年ACM軟體系統獎 —— 題記簡單的詞法和語法分析 Lex和Yacc真是太好用了，非常方便我們構建一門語言的分析程式。

HTML詞法和語法

一個 ken 元素 src start 意義 cool 解析字符 1. 詞 token 專業不是計算機的博主比較尷尬，一直以為token就是驗證身份用的標識 token —— 表示 “最小有意義的單元” 以這個簡單的p標簽為例，我們分析哪些是token： <p c

用Java寫編譯器（1）- 詞法和語法分析

# 詞法和語法分析器構建 ## ANTLR簡介 ANTLR全稱ANother Tool for Languate Recognition,是基於LL(*)演算法實現的語法分析器生成器和詞法分析器生成器，由舊金山大學的Terence Parr博士等人於1989年開始使用java編寫。截止到目前，ANTLR已

3.VHDL的基本結構和語法（二）

目錄 IF語句 1.順序語句順序語句僅出現在程序和子程式中。順序語句綜合後，對映為實際的閘電路，系統一上電，閘電路開始工作。電路可實現邏輯上的順序執行，實際上所有閘電路是並行工作的。賦值語句要點：賦值語句流程控制語句空

List集合原始碼解析原理和用法

注：以下所用原始碼均基於JDK1.8基礎（特殊說明除外）先從原始碼入手解析： public interface List<E> extends Collection<E> {} An ordered collection (also know

Java ThreadLocal原始碼解析: Thread和ThreadLocal

之前對TreadLocal有所理解，對原理也有所瞭解，但一直不深入，重新整理，希望藉以加深理解和印象。在Jdk1.8中，ThreadLocal相關程式碼主要分為三部分： Thread，其中Thread中儲存對ThreadLocal.ThreadLocalMap的引用，作為T

記一次FastJSON和Jackson解析json時遇到的中括號問題

LoRa 深度解析LoRa和LoRaWAN的區別

1.總體介紹隨著物聯網技術的飛速發展，NB-IoT、LoRa、SigFox等技術名詞時不時出現在我們的視野中，對普通讀者或者剛剛接觸物聯網領域的人來說，在一大堆名詞面前可能會混淆。本文資本論將針對LoRa和LoRaWN做細緻的介紹與比較。總體而言，LoRa僅包含鏈路層協議，並且非常適用於

【進階3-3期】深度廣度解析 call 和 apply 原理、使用場景及實現

本週的主題是this全面解析，本計劃一共28期，每期重點攻克一個面試重難點，如果你還不瞭解本進階計劃，文末點選檢視全部文章。如果覺得本系列不錯，歡迎轉發，您的支援就是我堅持的最大動力。之前文章詳細介紹了 this 的使用，不瞭解的檢視【進階3-1期】。 call() 和 apply()

Springboot原始碼深度解析，方法解析，類載入解析，容器建立

springboot的啟動都是從main方法開始的，如下：@SpringBootApplicationpublic class Application { public static void main(String[] args) { SpringApplication.run(Application.cl

Iterator原始碼解析及和for-each迴圈

在使用foreach迴圈遍歷集合的過程中，如果集合被修改了，會丟擲ConcurrentModificationException異常。以這段程式碼為例子： public class SynProblem { List<Widget> widgetList

netty原始碼解解析(4.0)-7 執行緒模型-IO執行緒EventLoopGroup和NIO實現(二)

把NIO事件轉換成對channel unsafe的呼叫或NioTask的呼叫 processSelectedKeys()方法是處理NIO事件的入口: private void processSelectedKeys() { if (selectedKeys != null) {

【swupdate文件四】SWUpdate:使用預設解析器的語法和標記

SWUpdate:使用預設解析器的語法和標記介紹 SWUpdate使用庫“libconfig”作為映象描述的預設解析器。但是，可以擴充套件SWUpdate並新增一個自己的解析器，以支援不同於libconfig的語法和語言。在examples目錄中，有一個用Lua編寫的，支援解析XML形式描述檔案

併發程式設計（十二）—— Java 執行緒池實現原理與原始碼深度解析之submit方法（二）

在上一篇《併發程式設計（十一）—— Java 執行緒池實現原理與原始碼深度解析（一）》中提到了執行緒池ThreadPoolExecutor的原理以及它的execute方法。這篇文章是接著上一篇文章寫的，如果你沒有閱讀上一篇文章，建議你去讀讀。本文解析ThreadPoolExecutor#submit。　

JAVA JSON 語法和 JSON 解析

一、JSON 語法作用 : json 檔案是類似xml檔案,用來儲存和傳輸資料資訊的媒介注意 : json 同 xml 一樣,不僅可以通過響應檔案作為資料的載體,也可以通過滿足語法的字

fastjson深度原始碼解析- 詞法和語法解析(二)

JSON Token解析

JSONLexerBase成員函式

推斷token型別

跳過註釋

掃描字串

掃描數字型別

掃描Boolean

掃描識別符號

掃描十六進位制數

根據期望字元掃描token

相關推薦