從零寫一個編譯器（四）：語法分析之構造有限狀態自動機

阿新 • • 發佈：2019-12-31

專案的完整程式碼在 C2j-Compiler

通過上一篇對幾個構造自動機的基礎資料結構的描述，現在就可以正式來構造有限狀態自動機

我們先用一個小一點的語法推導式來描述這個過程

s -> e
e -> e + t
e -> t
t -> t * f
t -> f
f -> ( e )
f -> NUM
複製程式碼

初始化

狀態0是狀態機的初始狀態，它包含著語法表示式中的起始表示式，也就是編號為0的表示式：

0: s -> . e

這裡的點也就是之前Production類中的dosPos

負責這個操作的方法在StateNodeManager類中，前面先判斷當前目錄下是不是已經構建好語法分析表了，如果有的話就不需要再次構建了。

productionManager.buildFirstSets();可以先略過，後面會講到。

ProductionsStateNode就是用來描述狀態節點的

public static int stateNumCount = 0;
/** Automaton state node number */
public int stateNum;
/** production of state node */
public ArrayList<Production> productions;
複製程式碼

接著就是放入開始符號作為第一個狀態節點，也就是這一步的初始化

public void buildTransitionStateMachine 
() {
    File table = new File("lrStateTable.sb");
    if (table.exists()) {
        return;
    }
    ProductionManager productionManager = ProductionManager.getInstance();
    productionManager.buildFirstSets();
    ProductionsStateNode state = getStateNode(productionManager.getProduction(Token.PROGRAM.ordinal()));

    state.buildTransition();

    debugPrintStateMap();
}
複製程式碼

對起始推導式做閉包操作

注意之前的 .,也就是Production裡的dosPos，這一步就有用了，利用這個點來做閉包操作

對.右邊的符號做閉包操作，也就是說如果 . 右邊的符號是一個非終結符，那麼肯定有某個表示式，->左邊是該非終結符，把這些表示式新增進來

s -> . e
e -> . e + t
e -> . t
複製程式碼

對新新增進來的推導式反覆重複這個操作，直到所有推導式->右邊是非終結符的那個所在推導式都引入，這也就是ProductionsStateNode裡的makeClosure方法

主要邏輯就是先將這個節點中的所有產生式壓入堆疊中，再反覆的做閉包操作。closureSet是每個節點中儲存閉包後的產生式

private void makeClosure() {
    Stack<Production> productionStack = new Stack<Production>();
    for (Production production : productions) {
        productionStack.push(production);
    }

    if (Token.isTerminal(production.getDotSymbol())) {
        ConsoleDebugColor.outlnPurple("Symbol after dot is not non-terminal,ignore and process next item");
        continue;
    }
            
    while (!productionStack.empty()) {
        Production production = productionStack.pop();
        int symbol = production.getDotSymbol();
        ArrayList<Production> closures = productionManager.getProduction(symbol);
        for (int i = 0; closures != null && i < closures.size(); i++) {
            if (!closureSet.contains(closures.get(i))) {
                closureSet.add(closures.get(i));
                productionStack.push(closures.get(i));
            }
        }
    }
}
複製程式碼

對引入的產生式進行分割槽

把 . 右邊擁有相同非終結符的表示式劃入一個分割槽，比如

s -> . e
e -> . e + t
複製程式碼

就作為同一個分割槽。最後把每個分割槽中的表示式中的 . 右移動一位，形成新的狀態節點

s -> e .
e -> e . + t
複製程式碼

分割槽操作就在ProductionsStateNode類中的partition方法中

主要邏輯也很簡單，遍歷當前的closureSet，如果分割槽不存在，就以產生式點的右邊作為key，產生式列表作為value，並且如果當前產生式列表裡不包含這個產生式，就把這個產生式加入當前的產生式列表

private void partition() {
    ConsoleDebugColor.outlnPurple("==== state begin make partition ====");

    for (Production production : closureSet) {
        int symbol = production.getDotSymbol();
        if (symbol == Token.UNKNOWN_TOKEN.ordinal()) {
            continue;
        }

        ArrayList<Production> productionList = partition.get(symbol);
        if (productionList == null) {
            productionList = new ArrayList<>();
            partition.put(production.getDotSymbol(),productionList);
        }

        if (!productionList.contains(production)) {
            productionList.add(production);
        }
    }

    debugPrintPartition();
    ConsoleDebugColor.outlnPurple("==== make partition end ====");
}
複製程式碼

對所有分割槽節點構建跳轉關係

根據每個節點 . 左邊的符號來判斷輸入什麼字元來跳入該節點

比如， . 左邊的符號是 t,所以當狀態機處於狀態0時，輸入時 t 時，跳轉到狀態1。

. 左邊的符號是e,所以當狀態機處於狀態 0 ，且輸入時符號e時，跳轉到狀態2： 0 – e -> 2

這個操作的實現再ProductionsStateNode的makeTransition方法中

主要邏輯是遍歷所有分割槽，每個分割槽都是一個新的節點，所以拿到這個分割槽的跳轉關係，也就是partition的key，即之前產生式的點的右邊。然後構造一個新的節點和兩個節點之間的關係

private void makeTransition() {
    for (Map.Entry<Integer,ArrayList<Production>> entry : partition.entrySet()) {
        ProductionsStateNode nextState = makeNextStateNode(entry.getKey());

        transition.put(entry.getKey(),nextState);

        stateNodeManager.addTransition(this,nextState,entry.getKey());
    }

    debugPrintTransition();

    extendFollowingTransition();
}
複製程式碼

makeNextStateNode的邏輯也很簡單，就是拿到這個分割槽的產生式列表，然後返回一個新節點

private ProductionsStateNode makeNextStateNode(int left) {
    ArrayList<Production> productions = partition.get(left);
    ArrayList<Production> newProductions = new ArrayList<>();

    for (int i = 0; i < productions.size(); i++) {
        Production production = productions.get(i);
        newProductions.add(production.dotForward());
    }

    return stateNodeManager.getStateNode(newProductions);
}
複製程式碼

stateNodeManager已經出現很多次了，它是類StateNodeManager，它的作用是管理節點，分配節點，統一節點。之後對節點的壓縮和語法分析表的最終構建都在這裡完成，這是後話了。

上面用到的兩個方法：

transitionMap相當於一個跳轉表：key是起始節點，value是一個map，這個map的key是跳轉關係，也就是輸入一個終結符或者非終結符，value則是目標節點

public void addTransition(ProductionsStateNode from,ProductionsStateNode to,int on) {
        HashMap<Integer,ProductionsStateNode> map = transitionMap.get(from);
        if (map == null) {
            map = new HashMap<>();
        }

        map.put(on,to);
        transitionMap.put(from,map);
}
複製程式碼

getStateNode先從判斷如果這個節點沒有建立過，建立過的節點都會加入stateList中，就建立一個新節點。如果存在就會返回這個原節點

public ProductionsStateNode getStateNode(ArrayList<Production> productions) {
    ProductionsStateNode node = new ProductionsStateNode(productions);

    if (!stateList.contains(node)) {
        stateList.add(node);
        ProductionsStateNode.increaseStateNum();
        return node;
    }

    for (ProductionsStateNode sn : stateList) {
        if (sn.equals(node)) {
            node = sn;
        }
    }

    return node;
}
複製程式碼

對所有新生成的節點重複構建

這時候的第一輪新節點才剛剛完成，到等到所有節點都完成節點的構建才算是真正的完成，在makeTransition中呼叫的extendFollowingTransition正是這個作用

private void extendFollowingTransition() {
    for (Map.Entry<Integer,ProductionsStateNode> entry : transition.entrySet()) {
        ProductionsStateNode state = entry.getValue();
        if (!state.isTransitionDone()) {
            state.buildTransition();
        }
    }
}
複製程式碼

小結

建立有限狀態自動機的四個步驟

makeClosure
partition
makeTransition
最後重複這些步驟直到所有的節點都構建完畢

至此我們對

public void buildTransition() {
    if (transitionDone) {
        return;
    }
    transitionDone = true;

    makeClosure();
    partition();
    makeTransition();
}
複製程式碼

的四個過程都已經完成，自動機的構建也算完成，應該進行語法分析表的建立了，但是這個自動機還有些問題，下一篇會來改善它。

從零寫一個編譯器（四）：語法分析之構造有限狀態自動機

專案的完整程式碼在 C2j-Compiler 通過上一篇對幾個構造自動機的基礎資料結構的描述，現在就可以正式來構造有限狀態自動機

從零寫一個編譯器（三）：語法分析之幾個基礎資料結構

專案的完整程式碼在 C2j-Compiler 寫在前面這個系列算作為我自己在學習寫一個編譯器的過程的一些記錄，演演算法之類的都沒有記錄原理性的東西，想知道原理的在龍書裡都寫得非常清楚，但是我自己一開始是不怎麼看得

從零寫一個編譯器（二）：語法分析之前置知識

前言在之前完成了詞法分析之後，得到了Token流，那麼接下來就是實現語法分析器來輸入Token流得到抽象語法樹（Abstract Syntax Tree，AST）。但是在完成這個語法分析器不像詞法分析器，直接手擼就好了，還是需要一些

從零寫一個編譯器（五）：語法分析之自動機的缺陷和改進

專案的完整程式碼在 C2j-Compiler 前言在上一篇，已經成功的構建了有限狀態自動機，但是這個自動機還存在兩個問題：

從零寫一個編譯器（六）：語法分析之表驅動語法分析

專案的完整程式碼在 C2j-Compiler 前言上一篇已經正式的完成了有限狀態自動機的構建和足夠判斷reduce的資訊，接下來的任務就是根據這個有限狀態自動機來完成語法分析表和根據這個表來實現語法分析

從零寫一個編譯器（八）：語義分析之構造符號表

專案的完整程式碼在 C2j-Compiler 前言在之前完成了描述符號表的資料結構，現在就可以正式構造符號表了。符號表的建立自然是要根據語法分析過程中走的，所以符號表的建立就在LRStateTableParser裡的takeActionFor

從零寫一個編譯器（九）：語義分析之構造抽象語法樹(AST)

專案的完整程式碼在 C2j-Compiler 前言在上一篇完成了符號表的構建，下一步就是輸出抽象語法樹(Abstract Syntax Tree，AST)

從零寫一個編譯器（七）：語義分析之符號表的資料結構

專案的完整程式碼在 C2j-Compiler 前言有關符號表的檔案都在symboltable包裡前面我們通過完成一個LALR(1)有限狀態自動機和一個reduce資訊來構建了一個語法解析表，正式完成了C語言的語法解析。接下來就是進入語

從零寫一個編譯器（十三）：程式碼生成之遍歷AST

專案的完整程式碼在 C2j-Compiler 前言在上一篇完成對JVM指令的生成，下面就可以真正進入程式碼生成部分了。通常現代編譯器都是先把生成IR，再經過程式碼優化等等，最後才編譯成目標平臺程式碼。但是時間水平有限

從零寫一個編譯器（一）：輸入系統和詞法分析

前言從半抄半改的完成一個把C語言編譯到Java位元組碼到現在也有些時間，一直想寫一個系列來回顧整理一下寫一個編譯器的過程，也算是學習筆記吧。就從今天開始動筆吧。

從零寫一個編譯器（十）：編譯前傳之直接解釋執行

專案的完整程式碼在 C2j-Compiler 前言這一篇不看也不會影響後面程式碼生成部分

從零寫一個編譯器（完結）：總結和系列索引

前言這個系列算作我自己的學習筆記，到現在已經有十三篇了，加上這篇一共十四篇。一步一步的從詞法分析到語法分析、語義分析，再到程式碼生成，準備在這一篇做一個總結收尾和一個這個系列以前文章的索引。

從零寫一個編譯器（十一）：程式碼生成之Java位元組碼基礎

專案的完整程式碼在 C2j-Compiler 前言第十一篇，終於要進入程式碼生成部分了，但是但是在此之前，因為我們要做的是C語言到位元組碼的編譯，所以自然要了解一些位元組碼，但是由於C語言比較簡單，所以只需要瞭解一

從零寫一個編譯器（十二）：程式碼生成之生成邏輯

專案的完整程式碼在 C2j-Compiler 前言在上一篇解釋完了一些基礎的Java位元組碼指令後，就可以正式進入真正的程式碼生成部分了。但是這部分先說的是程式碼生成依靠的幾個類，也就是用來生成指令的操作。

我是如何學習寫一個作業系統（四）：作業系統之系統呼叫

前言最近有點事情，馬上要開學了，所以學習的腳步就慢下來了。這一篇主要是來說作業系統的系統呼叫的，像C語言的printf深入到內部就是一個有關螢幕輸出的系統呼叫

我是如何學習寫一個作業系統（三）：作業系統的啟動之保護模式

前言上一篇其實已經說完了boot的大致工作，但是Linux在最後進入作業系統之前還有一些操作，比如進入保護模式。在我自己的FragileOS裡進入保護模式是在載入程式結束後完成的。

我是如何學習寫一個作業系統（二）：作業系統的啟動之Bootloader

前言今天本來的任務看書和把之前寫的FragileOS整理一下，但是到現在還在摸魚，書也只看一點。後來整理了一下寫這個系列的思路，原本的目的是對作業系統原理性的學習和對之前寫的一個玩具型作業系統的回顧，就是想對

我是如何學習寫一個作業系統（八）：記憶體管理和段頁機制

前言多程式和記憶體管理是緊密相連的兩個模組，因為執行程式也就是從記憶體中取指執行，建立程式首先要將程式和資料裝入記憶體。將使用者原程式變成可在記憶體中執行的程式，而這就涉及到了記憶體管理。

MSSQL系列（四）：系統函式之日期和時間函式

1.current_timestamp :獲取資料庫系統時間戳 --獲取資料庫系統時間戳 select current_timestamp

資料中臺實戰（四）：商品分析（產品設計篇）

作為電商產品，如果站在價值的角度來思考就有問題。你可以分析下我們提到的使用者相關的指標，比如：註冊量、訪問時長、留存率等這些指標都無法提高產品的價值，指標中最重要的是留存率，你發現站在價值的角度留存率

從零寫一個編譯器（四）：語法分析之構造有限狀態自動機

初始化

對起始推導式做閉包操作

對引入的產生式進行分割槽

對所有分割槽節點構建跳轉關係

對所有新生成的節點重複構建

小結

相關推薦