1. 程式人生 > 程式設計 >從零寫一個編譯器(二):語法分析之前置知識

從零寫一個編譯器(二):語法分析之前置知識

前言

在之前完成了詞法分析之後,得到了Token流,那麼接下來就是實現語法分析器來輸入Token流得到抽象語法樹 (Abstract Syntax Tree,AST)。但是在完成這個語法分析器不像詞法分析器,直接手擼就好了,還是需要一些前置的知識。

這些前置知識在之前的博文都有提起過

之前的博文目錄

專案的完整程式碼在 C2j-Compiler

什麼是語法分析?

如果我們把詞法分析看成是組合單詞,輸出單詞流,那麼語法分析就可以看作是檢查這些單詞是不是符合語法的過程。在詞法分析的時候用正則或者手工比對來驗證單詞,語法分析則是用上下文無關文法 (context-free grammar,CFG)

若一個形式文法 G = (N,Σ,P,S) 的產生式規則都取如下的形式:V -> w,則謂之。其中 V∈N ,w∈(N∪Σ) 。上下文無關文法取名為“上下文無關”的原因就是因為字元 V 總可以被字串 w 自由替換,而無需考慮字元 V 出現的上下文。一個形式語言是上下文無關的,如果它是由上下文無關文法生成的*

BNF正規化

巴科斯正規化(英語:Backus Normal Form,BNF)是一種用於表示上下文無關文法的語言。

看一個例子:

S –> AB
A –> aA | ε
B –> b | bB
複製程式碼

其中S A B叫作非終結符,代表可以通過推導產生新的符號,之前在Token類裡定義的也有這些非終結符;a b ε叫作終結符

,表示其無法再通過推導產生新的符號了,ε則表示空;

上面的每一行就是一個產生式規則,也叫推導式,代表了一種非終結符的轉移方式;

S就是開始符號。

只有終結符的符號串稱為句子 (sentence)

比如通過這三個產生式,就可以斷定bbb符合語法規則。

語法分析的幾種方法

和之前講的一樣,主要分為自頂向上和自底向下兩種

之前在學習的時候稍微記錄了一下這幾種方法,在這裡就不說了

遞迴下降和LL(1)語法分析
自底向上語法分析

在這裡稍微的再說一下這次語法分析使用的方法,LALR(1),它也屬於自底向上的分析演演算法。

自底向上的語法分析

一個自底向上的語法分析過程對應為一個輸入串構造語法分析書的過程,它從葉子節點開始,通過shift和reduce操作逐漸向上到達根節點

自底向上的語法分析需要一個堆疊來存放解析的符號,例如對於如下語法:

0.	statement -> expr
1.	expr -> expr + factor
2.	         | factor
3.	factor ->  ( expr )
4.	         | NUM
複製程式碼

來解析1+2

stack input
null 1 + 2
NUM + 2 開始讀入一個字元,並把對應的token放入解析堆疊,稱為shift操作
factor + 2 根據語法推導式,factor -> NUM,將NUM出棧,factor入棧,這個操作稱為reduce
expr + 2 這裡繼續做reduce操作,但是由於語法推導式有兩個產生式,所以需要向前看一個符合才能判斷是進行shift還是reduce,也就是語法解析的LA
expr + 2 shift操作
expr + NUM null shift操作
expr + factor null 根據fator的產生式進行reduce
expr null reduce操作
statement null reduce操作

此時規約到開始符號,並且輸入串也為空,代表語法解析成功

所以實現自底向上的語法解析關鍵就是識別堆疊上是應該進行shift還是reduce操作。

  • 進行暴力匹配,搜尋堆疊上的符號和所有的語法推導式進行匹配 x
  • 構造一個狀態機來根據堆疊壓入或彈出後的狀態來決定是否進行reduce操作

所以接下來的任務自然就是構建一個有限狀態自動機來能夠指導語法分析器來進行操作。

小結

所謂的前置知識其實也就是了解語法分析在幹什麼,和大概要怎麼幹。

語法分析就是檢查輸入的Token流是不是符合語法的過程,而完成這一步驟的語法分析演演算法,拿自底向上來說,也就是從葉子節點向上推導成樹頂端的過程。