編譯原理學習：TINY語言詞法掃描程式實現

阿新 • • 發佈：2019-02-06

最近對解釋型程式（類似python或者是linux裡的bc計算器）非常感興趣，就開始學習一下編譯原理。今天自己實現了TINY語言的詞法掃描程式。大部分參考《編譯原理及實踐》一書。但是我做了一些小小的改進。

先說一下TINY語言：

1、註釋：放在一對大括號內。書上的註釋不能巢狀，我做了一點改進，允許巢狀。

2、關鍵字：read write if end repeat until else

3、型別：只支援整型和布林型。

4、計算：+ - * / ( ) < = :=，其中:=為賦值運算，=為判斷。沒有〈和<= >=

一個示例的TINY語言程式：

test.tine: （選自《編譯原理及實踐》）

{ Sample program
  in TINY language -
  computes factorial
}
read x; { input an integer }
if 0 < x then { don't compute if x <= 0 }
	fact := 1;
	repeat
		fact := fact * x;
		x := x - 1;
	until x = 0;
	write fact { output factorial of x }
end

在globals.h中，涉及到一些型別的宣告：

#ifndef GLOBALS_H
#define GLOBALS_H

#include <stdio.h>
typedef enum 
{
	ENDFILE, ERROR,
	IF, THEN, ELSE, END, REPEAT, UNTIL, READ, WRITE,
	ID, NUM,
	ASSIGN, EQ, LT, PLUS, MINUS, TIMES, OVER, LPAREN, RPAREN, SEMI
} TokenType;
extern lineno;

/* The max size of identifier of reserved word */
#define MAXTOKENLEN 50

#endif

用於生成詞法掃描的flex輸入，這是程式的核心部分：

tiny.l

%{
#include <stdio.h>
#include <string.h>
#include "globals.h"
#include "util.h"

char tokenString[MAXTOKENLEN + 1];
%}

digit		[0-9]
number		{digit}+
letter		[a-zA-Z]
identifier	{letter}[a-zA-Z0-9]*
newline		\n
whitespace	[ \t]

%%

"if"			{return IF;}
"then"			{return THEN;}
"else"			{return ELSE;}
"end"			{return END;}
"repeat"		{return REPEAT;}
"until"			{return UNTIL;}
"read"			{return READ;}
"write"			{return WRITE;}
":="			{return ASSIGN;}
"="			{return EQ;}
"<"			{return LT;}
"+"			{return PLUS;}
"-"			{return MINUS;}
"*"			{return TIMES;}
"/"			{return OVER;}
"("			{return LPAREN;}
")"			{return RPAREN;}
";"			{return SEMI;}
{number}		{return NUM;}
{identifier}	<span style="white-space:pre">	</span>{return ID;}
{newline}		{lineno++;}
{whitespace}	<span style="white-space:pre">	</span>{ /* Do nothing */ }
"{"			{ char c;
			  int count = 1;
			  do
			  {
				  c = input();
				  if (c == EOF) break;
				  else if (c == '\n') lineno++;
				  else if (c == '{') count++;
				  else if (c == '}') count--;
			  } while (count != 0);
			}
.			{return ERROR;}

%%

TokenType getToken(void)
{
	TokenType currentToken;
	currentToken = yylex();
	strncpy(tokenString, yytext, MAXTOKENLEN);
	printf("%d: ", lineno);
	printToken(currentToken, tokenString);

	return currentToken;
}

printToken函式在util.c中實現：

util.h:

#ifndef UTIL_H
#define UTIL_H

#include "globals.h"

void printToken(TokenType token, char* tokenString);

TokenType getToken(void);

#endif

util.c:

#include "util.h"
#include <stdio.h>
#include "globals.h"

void printToken(TokenType token, char* tokenString)
{
	switch(token)
	{
		case IF:
		case THEN:
		case ELSE:
		case END:
		case REPEAT:
		case UNTIL:
		case READ:
		case WRITE:
			printf("\treversed word: %s\n", tokenString);
			break;
		case ID:
			printf("\tidentifier: %s\n", tokenString);
			break;
		case NUM:
			printf("\tnumber: %s\n", tokenString);
			break;
		case ASSIGN:
		case EQ:
		case LT:
		case PLUS:
		case MINUS:
		case TIMES:
		case OVER:
		case LPAREN:
		case RPAREN:
		case SEMI:
			printf("\toperator: %s\n", tokenString);
	}
}

main.c:

#include "globals.h"
#include "util.h"
#include <stdio.h>
#include <stdlib.h>

int lineno = 1;

int main(int argc, char* argv[])
{
	TokenType token;

	do
	{
		token = getToken();
	} while (token != ENDFILE);

	return 0;
}

這就是所有的檔案了！最後，是makefile檔案：

scanner.exe: main.o lex.yy.o util.o
	gcc main.o lex.yy.o util.o -o scanner.exe -lfl
main.o: main.c globals.h util.h
	gcc main.c -c
util.o: util.c util.h globals.h
	gcc util.c -c
lex.yy.o: tiny.l
	flex tiny.l
	gcc lex.yy.c -c

於是，一個簡單的詞法掃描程式就完成了。

由於使用的是預設的輸入，所以這個程式直接支援從鍵盤輸入，執行效果如下：

當然，也可以使用重定向操作，使用效果如下：

編譯原理學習：TINY語言詞法掃描程式實現

最近對解釋型程式（類似python或者是linux裡的bc計算器）非常感興趣，就開始學習一下編譯原理。今天自己實現了TINY語言的詞法掃描程式。大部分參考《編譯原理及實踐》一書。但是我做了一些小小的改進。先說一下TINY語言： 1、註釋：放在一對大括號內。書上的註釋不能巢

【編譯原理】類C語言詞法分析器的設計

1.實驗要求輸入為一個以類C語言編寫的源程式輸出為一組二元組序列構成的文字檔案，一行為一個二元組，二元組中間以逗號隔開實驗報告上要求附上DFA 2.語言說明：保留字：unsigned、break、return、void、case、float、char、for、while、co

編譯原理學習筆記（二）翻譯程式的實現

上一節所學的主要是語法到語義的內容，通過手動構造語法樹來理解編譯過程。在3.5節，書中給出了字尾表示式翻譯程式的java實現。根據前面的內容，今天對NC程式碼編譯給出簡易的實現。在實現前，需要幾個準備內容用以簡化程式碼： 1. 正則表示式正則表示式

編譯原理：C語言詞法分析器

編譯原理的實驗：完成對C語言的詞法分析先說一下整體框架：基類：Base 封裝了一些基礎的字元判斷函式，如下： int charkind(char c);//判斷字元型別 int spaces(char c); //當前空格是否可以消除 int characte

編譯原理實驗：實驗一簡單詞法分析程序設計（必修）(Python實現)

it is 括號 ali 鍵盤輸入優化沒有 mce constant 是否一、實驗目的了解詞法分析程序的基本構造原理，掌握詞法分析程序的手工構造方法。二、實驗內容 1、了解編譯程序的詞法分析過程。 2、根據PASCAL語言的說明語句形式，用手工方法構造一個對說明語

編譯原理小C語言--詞法分析程式

Problem Description 小C語言文法 1. <程式>→(){<宣告序列><語句序列>} 2. <宣告序列>→<宣告序列><宣告語句>|<宣告語句>|<空> 3.

跟vczh看例項學編譯原理——二：實現Tinymoe的詞法分析

實現Tinymoe的第一步自然是一個詞法分析器。詞法分析其所作的事情很簡單，就是把一份程式碼分割成若干個token，記錄下他們所在檔案的位置，以及丟掉不必要的資訊。但是Tinymoe是一個按行分割的語言，自然token列表也就是二維的，第一維是行，第二維是每一行的token。在繼續講詞法分析器之前

GCC編譯器原理（二）------編譯原理一：ELF文件

過程外部文件初始 cati tor 保護功能編譯原理外部 comm 二、ELF 文件介紹 2.1 可執行文件格式綜述相對於其它文件類型，可執行文件可能是一個操作系統中最重要的文件類型，因為它們是完成操作的真正執行者。可執行文件的大小、運行速度、資源占用情況

GCC編譯器原理（三）------編譯原理三：編譯過程---預處理

ddl str dep 數據路徑 back char 構造 data Gcc的編譯流程分為了四個步驟: 預處理，生成預編譯文件（.文件）：gcc –E hello.c –o hello.i 編譯，生成匯編代碼（.s文件）：gcc –S hello.i –o hell

GCC編譯器原理（三）------編譯原理三：編譯過程（2-2）---編譯之語法分析

tails 需要表達式一個數就是 out 和數 margin 操作符 2.2 語法分析語法分析器（Grammar Parser）將對由掃描器產生的記號進行語法分析，從而產生語法樹（Syntax Tree）。整個分析過程采用了上下文無關語法（Context-free

編譯原理學習筆記（一）

.com bubuko image img 記錄 mage 學習內容基礎簡單地瀏覽了一下第一章，主要是基礎性內容，就不記錄了。編譯原理學習筆記（一）

快速傅立葉變換FFT的學習筆記一：C語言程式碼的簡單實現

快速傅立葉變換FFT的學習筆記一：C語言程式碼的簡單實現 fft.c #include "math.h" #include "fft.h" void conjugate_complex(int n,complex in[],complex out[]) { int i = 0

編譯原理學習筆記

1.2編譯器的結構：源語言 - >語法分析 - >抽象語法樹（AST） - >程式碼生成：舉例採用後序遍歷AST的方式實現一個加法程式碼生成（到棧式計算機指令） 1.3編譯器的例子：棧式計算機（JVM） 2.詞法分析 2.1編譯器的階段：源程式 - >前端 -

JavaScript 詳解預編譯原理（和其他語言很不一樣）

JavaScript 預編譯原理今天用了大量時間複習了作用域、預編譯等等知識看了很多博文，翻開了以前看過的書（好像好多書都不會講預編譯）發現當初覺得自己學的很明白，其實還是存在一些思維誤區（很多博文具有誤導性）今晚就整理了一下凌亂的思路先整理一下預編譯的知識吧，日後有時間再把作用

編譯原理學習筆記之自上而下分析Ⅰ

一、自上而下分析法從根部開始構造語法樹自上而下分析法不能因為左遞迴存在而陷入死迴圈，不能產生回溯，即每一步推導的產生式必須是唯一的 1.消除左遞迴左遞迴形如A->Aa |b ，這種在建立分析樹時一直在左子樹死迴圈，因為推導的結果中最左還是A 或者多個

編譯原理入門（三）——詞法分析簡介

上一篇博文介紹了編譯器翻譯的過程，本篇博文對翻譯過程的第一步詞法分析進行講解。詞法分析詞法分析的主要任務：1.對源程式的程式碼進行從左到右的逐行掃描，識別出各個單詞，從而確定單詞的型別。

跟vczh看例項學編譯原理——三：Tinymoe與無歧義語法分析

看了前面的三篇文章，大家應該基本對Tinymoe的程式碼有一個初步的感覺了。在正確分析"print sum from 1 to 100"之前，我們首先得分析"phrase sum from (lower bound) to (upper bound)"這樣的宣告。Tinymoe的函式宣告又很多關於

跟vczh看例項學編譯原理——一：Tinymoe的設計哲學

自從《序》胡扯了快一個月之後，終於迎來了正片。之所以系列文章叫《看例項學編譯原理》，是因為整個系列會通過帶大家一步一步實現Tinymoe的過程，來介紹編譯原理的一些知識點。但是第一個系列還沒到開始處理Tinymoe原始碼的時候，首先的跟大家講一講我設計Tinymoe的故事。為什麼這種東西要等到

跟vczh看例項學編譯原理——零：序言

在《如何設計一門語言》裡面，我講了一些語言方面的東西，還有痛快的噴了一些XX粉什麼的。不過單純講這個也是很無聊的，所以我開了這個《跟vczh看例項學編譯原理》系列，意在科普一些編譯原理的知識，儘量讓大家可以在創造語言之後，自己寫一個原型。在這裡我拿我創造的一門很有趣的語言 https://github.com

【1】Groovy語言學習：groovy語言簡介及基本語法

Groovy是一種基於JVM的敏捷開發語言，它結合了Python、Ruby和Smalltalk的許多強大的特性。一、groovy是什麼簡單地說，Groovy 是下一代的java語言，跟java一樣,它也執行在 JVM 中。作為跑在JVM中的另一種語言

編譯原理學習：TINY語言詞法掃描程式實現

相關推薦