從零寫一個編譯器（八）：語義分析之構造符號表

阿新 • • 發佈：2019-08-19

專案的完整程式碼在 C2j-Compiler

前言

在之前完成了描述符號表的資料結構，現在就可以正式構造符號表了。符號表的建立自然是要根據語法分析過程中走的，所以符號表的建立就在LRStateTableParser裡的takeActionForReduce方法

不過在此之前，當然還需要一個方便對這個符號表操作的類了

這一篇主要的兩個檔案是

TypeSystem.java
LRStateTableParser.java

操作符號表

操作符號表的方法都在TypeSystem類裡。

TypeSystem裡主要有這幾個方法：

型別說明符

邏輯都很簡單

public TypeLink newType(String typeText) {
      Specifier sp;
      int type = Specifier.NONE;
      boolean isLong = false, isSigned = true;
      switch (typeText.charAt(0)) {
          case 'c':
              if (typeText.charAt(1) == 'h') {
                  type = Specifier.CHAR;
              }
              break;
          case 'd':
          case 'f':
              System.err.println("Floating point Numbers are not supported");
              System.exit(1);
              break;
          case 'i':
              type = Specifier.INT;
              break;
          case 'l':
              isLong = true;
              break;
          case 'u':
              isSigned = false;
              break;
          case 'v':
              if (typeText.charAt(2) == 'i') {
                  type = Specifier.VOID;
              }
              break;
          case 's':
              //ignore short signed
              break;
          default:
              break;
      }

      sp = new Specifier();
      sp.setType(type);
      sp.setLong(isLong);
      sp.setSign(isSigned);

      TypeLink link = new TypeLink(false, false, sp);

      return link;
  }

建立儲存型別

其實這一部分有的到後面解釋執行或者程式碼生成的時候，現在這個編譯器是不處理的

這一部分的邏輯也很簡單

public TypeLink newClass(String classText) {
      Specifier sp = new Specifier();
      sp.setType(Specifier.NONE);
      setClassType(sp, classText.charAt(0));

      TypeLink link = new TypeLink(false, false, sp);
      return link;
  }

  private void setClassType(Specifier sp, char c) {
      switch(c) {
          case 0:
              sp.setStorageClass(Specifier.FIXED);
              sp.setStatic(false);
              sp.setExternal(false);
              break;
          case 't':
              sp.setStorageClass(Specifier.TYPEDEF);
              break;
          case 'r':
              sp.setStorageClass(Specifier.REGISTER);
              break;
          case 's':
              sp.setStatic(true);
              break;
          case 'e':
              sp.setExternal(true);
              break;
          default:
              System.err.println("Internal error, Invalid Class type");
              System.exit(1);
              break;
      }
  }

給符號新增修飾符

addSpecifierToDeclaration是為當前整個Symbol鏈都加上修飾符，比如遇見int x,y,z;這種情況

public Declarator addDeclarator(Symbol symbol, int declaratorType) {
      Declarator declarator = new Declarator(declaratorType);
      TypeLink link = new TypeLink(true, false, declarator);
      symbol.addDeclarator(link);

      return declarator;
  }

public void addSpecifierToDeclaration(TypeLink specifier, Symbol symbol) {
    while (symbol != null) {
        symbol.addSpecifier(specifier);
        symbol = symbol.getNextSymbol();
    }
}

剩下用到再提

構造符號表

構造符號表的過程在語法分析的過程裡，也就是進行reduce操作的時候。很好理解問什麼符號表的構建會在reduce操作時發生，因為當發生reduce操作的時候就代表產生了一個變數名或者是產生了一個變數定義，這時候是把它們加入符號表的最好時機

所以在語法分析的過程中加入一個方法來處理reduce時的操作，此外還需要一個屬性堆疊來輔助操作，屬性堆疊的作用就是用來儲存之前的操作，以方便後面使用

比如現在產生了一個修飾符，但是語法分析過程還沒有讀入變數名，就先把這個修飾符壓入屬性堆疊，等讀入變數名的時候就可以建立一個Symbol，再把修飾符彈出堆疊連結到Symbol上

takeActionForReduce

takeActionForReduce方法的引數就是做reduce操作依據的產生式的編號

只看一下比較複雜的：

StructSpecifier_TO_TypeSpecifier：

這是結構定義生成一個結構體型別的declartor，對應的推導式是

* TYPE_SPECIFIER -> STRUCT_SPECIFIER
* STTUCT_SPECIFIER -> STRUCT OPT_TAG LC DEF_LIST RC
*                     | STRUCT TAG

先生成一個Specifier再設定它的vStruct屬性，也就是宣告這是一個結構體，之後拿到結構體定義，從這個推導式中我們可以看出，結構體定義肯定在它的上一步，也就是被放入了屬性堆疊的頂端

SPECIFIERS_TypeOrClass_TO_SPECIFIERS

這裡對應的推導式是

*  SPECIFIERS ->  SPECIFIERS TYPE_OR_CLASS

目的其實就是合併多個specifier

DEFLIST

case SyntaxProductionInit.ExtDeclList_COMMA_ExtDecl_TO_ExtDeclList:
case SyntaxProductionInit.VarList_COMMA_ParamDeclaration_TO_VarList:
case SyntaxProductionInit.DeclList_Comma_Decl_TO_DeclList:
case SyntaxProductionInit.DefList_Def_TO_DefList:

其實這部分是連線一系列變數的定義，比如ExtDeclList_COMMA_ExtDecl_TO_ExtDeclList就是對應像x,y這樣用逗號分割的連續定義，把它們的符號連線起來

DECLARTOR

case SyntaxProductionInit.OptSpecifier_ExtDeclList_Semi_TO_ExtDef:
case SyntaxProductionInit.TypeNT_VarDecl_TO_ParamDeclaration:
case SyntaxProductionInit.Specifiers_DeclList_Semi_TO_Def:

這裡其實是完成一個完成的定義，像int x,y;後把拿到Specifier放入到每個符號去，比較特殊的是拿到Specifier的位置，這是根據reduce次數計算的。

STRUCT和FUNCTION

接下來比較需要注意的就是處理struct和function的方法

在處理連續的變數宣告的時候，如果遇見的型別是結構體的話，就進行這樣一個處理，如果當前是個結構體宣告，我們就直接把這個結構體裡的符號，也就是structDefine的fields放入argList（這個原本應該是放函式引數的）

private void handleStructVariable(Symbol symbol) {
      if (symbol == null) {
          return;
      }

      boolean isStruct = false;
      TypeLink typeLink = symbol.typeLinkBegin;
      Specifier specifier = null;
      while (typeLink != null) {
          if (!typeLink.isDeclarator) {
              specifier = (Specifier) typeLink.getTypeObject();
              if (specifier.getType() == Specifier.STRUCTURE) {
                  isStruct = true;
                  break;
              }
          }

          typeLink = typeLink.toNext();
      }

      if (isStruct) {
          StructDefine structDefine = specifier.getStruct();
          Symbol copy = null, headCopy = null, original = structDefine.getFields();
          while (original != null) {
              if (copy != null) {
                  Symbol sym = original.copy();
                  copy.setNextSymbol(sym);
                  copy = sym;
              } else {
                  copy = original.copy();
                  headCopy = copy;
              }

              original = original.getNextSymbol();
          }

          symbol.setArgList(headCopy);
      }
  }

這個方法其實就是根據有沒有引數來判斷當前函式的名字在堆疊的哪個位置

private void setFunctionSymbol(boolean hasArgs) {
    Symbol funcSymbol;
    if (hasArgs) {
        funcSymbol = (Symbol) valueStack.get(valueStack.size() - 4);
    } else {
        funcSymbol = (Symbol) valueStack.get(valueStack.size() - 3);
    }

    typeSystem.addDeclarator(funcSymbol, Declarator.FUNCTION);
    attributeForParentNode = funcSymbol;
}

takeActionForReduce原始碼

private void takeActionForReduce(int productionNum) {
      switch (productionNum) {
          case SyntaxProductionInit.TYPE_TO_TYPE_SPECIFIER:
              attributeForParentNode = typeSystem.newType(text);
              break;
          case SyntaxProductionInit.EnumSpecifier_TO_TypeSpecifier:
              attributeForParentNode = typeSystem.newType("int");
              break;
          case SyntaxProductionInit.StructSpecifier_TO_TypeSpecifier:
              attributeForParentNode = typeSystem.newType(text);
              TypeLink link = (TypeLink) attributeForParentNode;
              Specifier sp = (Specifier) link.getTypeObject();
              sp.setType(Specifier.STRUCTURE);
              StructDefine struct = (StructDefine) valueStack.get(valueStack.size() - 1);
              sp.setStruct(struct);
              break;

          case SyntaxProductionInit.SPECIFIERS_TypeOrClass_TO_SPECIFIERS:
              attributeForParentNode = valueStack.peek();
              Specifier last = (Specifier) ((TypeLink) valueStack.get(valueStack.size() - 2)).getTypeObject();
              Specifier dst = (Specifier) ((TypeLink) attributeForParentNode).getTypeObject();
              typeSystem.specifierCopy(dst, last);
              break;
          case SyntaxProductionInit.NAME_TO_NewName:
          case SyntaxProductionInit.Name_TO_NameNT:
              attributeForParentNode = typeSystem.newSymbol(text, nestingLevel);
              break;
          case SyntaxProductionInit.START_VarDecl_TO_VarDecl:
          case SyntaxProductionInit.Start_VarDecl_TO_VarDecl:
              typeSystem.addDeclarator((Symbol) attributeForParentNode, Declarator.POINTER);
              break;

          case SyntaxProductionInit.VarDecl_LB_ConstExpr_RB_TO_VarDecl:
              Declarator declarator = typeSystem.addDeclarator((Symbol) valueStack.get(valueStack.size() - 4), Declarator.ARRAY);
              int arrayNum = (Integer) attributeForParentNode;
              declarator.setElementNum(arrayNum);
              attributeForParentNode = valueStack.get(valueStack.size() - 4);
              break;

          case SyntaxProductionInit.Name_TO_Unary:
              attributeForParentNode = typeSystem.getSymbolByText(text, nestingLevel, symbolScope);
              break;

          case SyntaxProductionInit.ExtDeclList_COMMA_ExtDecl_TO_ExtDeclList:
          case SyntaxProductionInit.VarList_COMMA_ParamDeclaration_TO_VarList:
          case SyntaxProductionInit.DeclList_Comma_Decl_TO_DeclList:
          case SyntaxProductionInit.DefList_Def_TO_DefList: {

              Symbol currentSym = (Symbol) attributeForParentNode;
              Symbol lastSym = null;
              if (productionNum == SyntaxProductionInit.DefList_Def_TO_DefList) {
                  lastSym = (Symbol) valueStack.get(valueStack.size() - 2);
              } else {
                  lastSym = (Symbol) valueStack.get(valueStack.size() - 3);
              }

              currentSym.setNextSymbol(lastSym);
          }
          break;
          case SyntaxProductionInit.OptSpecifier_ExtDeclList_Semi_TO_ExtDef:
          case SyntaxProductionInit.TypeNT_VarDecl_TO_ParamDeclaration:
          case SyntaxProductionInit.Specifiers_DeclList_Semi_TO_Def:
              Symbol symbol = (Symbol) attributeForParentNode;

              TypeLink specifier;
              if (productionNum == SyntaxProductionInit.TypeNT_VarDecl_TO_ParamDeclaration) {
                  specifier = (TypeLink) (valueStack.get(valueStack.size() - 2));
              } else {
                  specifier = (TypeLink) (valueStack.get(valueStack.size() - 3));
              }

              typeSystem.addSpecifierToDeclaration(specifier, symbol);
              typeSystem.addSymbolsToTable(symbol, symbolScope);

              handleStructVariable(symbol);
              break;

          case SyntaxProductionInit.VarDecl_Equal_Initializer_TO_Decl:
              //Here you need to set the Symbol object for the response, otherwise there will be an error above Symbol symbol = (Symbol)attributeForParentNode;
              attributeForParentNode = (Symbol) valueStack.get(valueStack.size() - 2);
              break;

          case SyntaxProductionInit.NewName_LP_VarList_RP_TO_FunctDecl:
              setFunctionSymbol(true);
              Symbol argList = (Symbol) valueStack.get(valueStack.size() - 2);
              ((Symbol) attributeForParentNode).args = argList;
              typeSystem.addSymbolsToTable((Symbol) attributeForParentNode, symbolScope);

              symbolScope = ((Symbol) attributeForParentNode).getName();
              Symbol sym = argList;
              while (sym != null) {
                  sym.addScope(symbolScope);
                  sym = sym.getNextSymbol();
              }
              break;

          case SyntaxProductionInit.NewName_LP_RP_TO_FunctDecl:
              setFunctionSymbol(false);
              typeSystem.addSymbolsToTable((Symbol) attributeForParentNode, symbolScope);
              symbolScope = ((Symbol) attributeForParentNode).getName();

              break;

          case SyntaxProductionInit.OptSpecifiers_FunctDecl_CompoundStmt_TO_ExtDef:
              symbol = (Symbol) valueStack.get(valueStack.size() - 2);
              specifier = (TypeLink) (valueStack.get(valueStack.size() - 3));
              typeSystem.addSpecifierToDeclaration(specifier, symbol);

              symbolScope = GLOBAL_SCOPE;
              break;

          case SyntaxProductionInit.Name_To_Tag:
              symbolScope = text;
              attributeForParentNode = typeSystem.getStructFromTable(text);
              if (attributeForParentNode == null) {
                  attributeForParentNode = new StructDefine(text, nestingLevel, null);
                  typeSystem.addStructToTable((StructDefine) attributeForParentNode);
              }

              break;

          case SyntaxProductionInit.Struct_OptTag_LC_DefList_RC_TO_StructSpecifier:
              Symbol defList = (Symbol) valueStack.get(valueStack.size() - 2);
              StructDefine structObj = (StructDefine) valueStack.get(valueStack.size() - 4);
              structObj.setFields(defList);
              attributeForParentNode = structObj;
              symbolScope = GLOBAL_SCOPE;
              break;

          case SyntaxProductionInit.Enum_TO_EnumNT:
              enumVal = 0;
              break;

          case SyntaxProductionInit.NameNT_TO_Emurator:
              doEnum();
              break;
          case SyntaxProductionInit.Name_Eequal_ConstExpr_TO_Enuerator:
              enumVal = (Integer) (valueStack.get(valueStack.size() - 1));
              attributeForParentNode = (Symbol) (valueStack.get(valueStack.size() - 3));
              doEnum();
              break;
          case SyntaxProductionInit.Number_TO_ConstExpr:
          case SyntaxProductionInit.Number_TO_Unary:
              attributeForParentNode = Integer.valueOf(text);
              break;
          default:
              break;
      }

      astBuilder.buildSyntaxTree(productionNum, text);
  }

作用域

在上面說的構造符號表的過程還有一個點沒有說，就是每個符號的作用域問題。

在LRStateTableParser有兩個屬性

nestingLevel
用來表明當前符號的巢狀層次
symbolScope
用來表示當前符號的作用域，如果是全域性變數就設定為GLOBAL_SCOPE，為函式內部的即設定為對應的函式名

nestingLevel在shift操作遇見左右括號時，就會進行相應的加減

symbolScope則是在reduce過程，如果遇見一個函式定義或者完成一個完整的函式定義就會進行相應的設定

小結

這一篇就是利用reduce操作的時候，我們可以知道是根據哪個產生式做的reduce，就可以在其中插入符號表的構建。過程看著可能比較複雜，但其實就是：

根據reduce的產生式建立資訊 -> 根據reduce的產生式來組合資訊

另外的github部落格：https://dejavudwh

從零寫一個編譯器（八）：語義分析之構造符號表

專案的完整程式碼在 C2j-Compiler 前言在之前完成了描述符號表的資料結構，現在就可以正式構造符號表了。符號表的建立自然是要根據語法分析過程中走的，所以符號表的建立就在LRStateTableParser裡的takeActionForReduce方法不過在此之前，當然還需要一個方便對這個符號表

從零寫一個編譯器（九）：語義分析之構造抽象語法樹(AST)

專案的完整程式碼在 C2j-Compiler 前言在上一篇完成了符號表的構建，下一步就是輸出抽象語法樹(Abstract Syntax Tree，AST) 抽象語法樹（abstract syntax tree 或者縮寫為 AST），是原始碼的抽象語法結構的樹狀表現形式，這裡特指程式語言的原始碼。樹上的

從零寫一個編譯器（七）：語義分析之符號表的資料結構

專案的完整程式碼在 C2j-Compiler 前言有關符號表的檔案都在symboltable包裡前面我們通過完成一個LALR(1)有限狀態自動機和一個reduce資訊來構建了一個語法解析表，正式完成了C語言的語法解析。接下來就是進入語義分析部分，和在第二篇提到的一樣，語義分析的主要任務就是生成符號

從零寫一個編譯器（五）：語法分析之自動機的缺陷和改進

專案的完整程式碼在 C2j-Compiler 前言在上一篇，已經成功的構建了有限狀態自動機，但是這個自動機還存在兩個問題：無法處理shift/reduce矛盾狀態節點太多，導致自動機過大，效率較低這一節就要解決這兩個問題 shift/reduce矛盾看上一節那個例子的一個節點 e ->

從零寫一個編譯器（六）：語法分析之表驅動語法分析

專案的完整程式碼在 C2j-Compiler 前言上一篇已經正式的完成了有限狀態自動機的構建和足夠判斷reduce的資訊，接下來的任務就是根據這個有限狀態自動機來完成語法分析表和根據這個表來實現語法分析 reduce資訊在完成語法分析表之前，還差最後一個任務，那就是描述reduce資訊，來指導自動機是

從零寫一個編譯器（十三）：程式碼生成之遍歷AST

專案的完整程式碼在 C2j-Compiler 前言在上一篇完成對JVM指令的生成，下面就可以真正進入程式碼生成部分了。通常現代編譯器都是先把生成IR，再經過程式碼優化等等，最後才編譯成目標平臺程式碼。但是時間水平有限，我們沒有IR也沒有程式碼優化，就直接利用AST生成Java位元組碼入口進行程式碼生

從零寫一個編譯器（十）：編譯前傳之直接解釋執行

專案的完整程式碼在 C2j-Compiler 前言這一篇不看也不會影響後面程式碼生成部分現在經過詞法分析語法分析語義分析，終於可以進入最核心的部分了。前面那部分可以稱作編譯器的前端，程式碼生成程式碼優化都是屬於編譯器後端，如今有關編譯器的工作崗位主要都是對後端的研究。當然現在寫的這個編譯器因為水平有限

從零寫一個編譯器（完結）：總結和系列索引

前言這個系列算作我自己的學習筆記，到現在已經有十三篇了，加上這篇一共十四篇。一步一步的從詞法分析到語法分析、語義分析，再到程式碼生成，準備在這一篇做一個總結收尾和一個這個系列以前文章的索引。（另外，由於我現在的這個主題不能對markdown的一級標題作目錄，所以這個系列文章的目錄都是有問題的）索引從零

從零寫一個編譯器（十一）：程式碼生成之Java位元組碼基礎

專案的完整程式碼在 C2j-Compiler 前言第十一篇，終於要進入程式碼生成部分了，但是但是在此之前，因為我們要做的是C語言到位元組碼的編譯，所以自然要了解一些位元組碼，但是由於C語言比較簡單，所以只需要瞭解一些位元組碼基礎 JVM的基本機制 JVM有一個執行環境叫做stack frame 這個

從零寫一個編譯器（十二）：程式碼生成之生成邏輯

專案的完整程式碼在 C2j-Compiler 前言在上一篇解釋完了一些基礎的Java位元組碼指令後，就可以正式進入真正的程式碼生成部分了。但是這部分先說的是程式碼生成依靠的幾個類，也就是用來生成指令的操作。這一篇用到的檔案都在codegen下： Directive.java Instruction.

從零開始學caffe（八）：Caffe在Windows環境下GPU版本的安裝

之前我們已經安裝過caffe的CPU版本，但是在MNIST手寫數字識別中，我們發現caffe的CPU版本執行速度較慢，訓練效率不高。因此，在這裡我們安裝了caffe的GPU版本，並使用GPU版本的caffe同樣對手寫MNIST數字集進行訓練。 step1: 安裝CUDA

我是如何學習寫一個作業系統（八）：記憶體管理和段頁機制

前言多程序和記憶體管理是緊密相連的兩個模組，因為執行程序也就是從記憶體中取指執行，建立程序首先要將程式和資料裝入記憶體。將使用者原程式變成可在記憶體中執行的程式，而這就涉及到了記憶體管理。記憶體的裝入絕對裝入。在編譯時，如果知道程式將駐留在記憶體的某個位置，編譯程式將產生絕對地址的目的碼。絕對裝入程