詞法分析器Lexer

阿新 • • 發佈：2018-12-11

詞法分析

In computer science, lexical analysis, lexing or tokenization is the process of converting a sequence of characters (such as in a computer program or web page) into a sequence of tokens (strings with an assigned and thus identified meaning). 在電腦科學中，詞法分析，lexing或標記化是將一系列字元（例如在計算機程式或網頁中）轉換成一系列標記（具有指定且因此標識的含義的字串）的過程。

編碼目標

給定一個原始碼檔案，能夠將其轉化為詞法記號流。比如規定int的詞法記號為30，輸出就是<30, int>；數字的詞法記號為11，則輸入123，輸出為<11, 123>。

約定

把程式中的詞法單元分為四類：識別符號（分為關鍵字和一般識別符號）、數字、特殊字元、空白（空格、Tab、回車換行等）

程式流程圖

程式流程圖對於運算子等符號，這裡只考慮兩個字元的組合情況，不考慮三個字元組成的運算子。之所以要在讀到特殊字元之後在往後讀一個字元是因為有可能在表中存在類似>=和>的運算子，要保證最長字元匹配。

關鍵程式碼

首字元型別判斷

public static String getCharType 
(String str) {
        String regex_Letter = "[a-zA-Z]";
        String regex_Number = "[0-9]";
        String regex_Blank = "\\s";
        Pattern pattern;

        pattern = Pattern.compile(regex_Letter);
        Matcher matcher = pattern.matcher(str);
        if (matcher.find())
            return 
 "LETTER";

        pattern = Pattern.compile(regex_Number);
        matcher = pattern.matcher(str);
        if (matcher.find())
            return "NUMBER";

        pattern = Pattern.compile(regex_Blank);
        matcher = pattern.matcher(str);
        if (matcher.find())
            return "BLANK";

        return "SPECIAL";
    }

如果首字元為字母

case "LETTER":
	pattern = Pattern.compile(regex_ID);
	matcher = pattern.matcher(srcCode);
	if (matcher.lookingAt()) {
		String result = matcher.group();
		if (LexicalToken.isKeyWord(result)) {
			int token = lextok.getToken(result);
			System.out.printf("<%d,%s>  ", token, result);
		} else {
			int token = lextok.getToken("ID");
			System.out.printf("<%d,%s>  ", token, result);
		}
	}
	srcCode = srcCode.substring(matcher.end());
	break;

如果首字元是數字

case "NUMBER":
	pattern = Pattern.compile(regex_NUM);
    matcher = pattern.matcher(srcCode);
    if (matcher.lookingAt()) {
	    String result = matcher.group();
        int token = lextok.getToken("NUM");
        System.out.printf("<%d,%s>  ", token, result);
     }
     srcCode = srcCode.substring(matcher.end());
     break;

如果首字元是空格

case "BLANK":
	srcCode = srcCode.substring(1);
    break;

如果首字元是特殊符號

case "SPECIAL":
	if (srcCode.length() > 1) {
	    String secondChar = srcCode.substring(1, 2);
        String result;
        LinkedHashMap tokenMap = lextok.getLexicalTokenMap();
        Set set = tokenMap.keySet();
        result = firstChar + secondChar;
        if (getCharType(secondChar).equals("SPECIAL") && set.contains(result)) {
            int token = lextok.getToken(result);
            System.out.printf("<%d,%s>  ", token, result);
            srcCode = srcCode.substring(2);
        }else {
            result = firstChar;
            int token = lextok.getToken(result);
            System.out.printf("<%d,%s>  ", token, result);
            srcCode = srcCode.substring(1);
              }
	} else {  // 字串中只有一個字元時
           int token = lextok.getToken(srcCode);
           System.out.printf("<%d,%s>  ", token, srcCode);
           srcCode = srcCode.substring(1);
    }
    break;

詞法分析器Lexer

詞法分析 In computer science, lexical analysis, lexing or tokenization is the process of converting a se

詞法分析器——哈工大編譯原理課程（一）

mina == 原理技術分享 after 文件編碼 exe warn 詞法分析器——哈工大編譯原理課程（一）程序輸入：從code.txt文件中讀取內容程序輸出：識別出的單詞序列，格式為：（種別碼，屬性值）　　　　　①對於關鍵字

自動構造詞法分析器的步驟——正規式轉換為最小化DFA

ply lec oda 獎章 nta fss col margin 轉換 3p渤采刂9味7J1PF四剛http://www.zcool.com.cn/collection/ZMTkwNDQ0MzY=.html d4刀9瓷RHX1秩http://www.zcool.com.

c++詞法分析器

保留字 nal switch n) 詞法分析器 class keyword IT fin 詞法分析器就是通過掃描一段程序判斷是否是關鍵字、標識符、常數、分界符、運算符。一般分為一符一種和經典五中；這裏我用的是經典五中，此詞法分析器是用c++編寫的； /*保留字|關鍵字：1

java編寫詞法分析器

bre word cas int nal 一段文件的 close main 詞法分析器就是通過掃描一段程序判斷是否是關鍵字、標識符、常數、分界符、運算符。一般分為一符一種和經典五中；這裏我用的是經典五中，此詞法分析器是用java編寫的； /* 保留字|關鍵字：1 操作符

C# 詞法分析器（一）詞法分析介紹

art 優化不一定 clr gen 多個 scan 原理輸入緩沖系列導航（一）詞法分析介紹（二）輸入緩沖和代碼定位（三）正則表達式（四）構造 NFA （五）轉換 DFA （六）構造詞法分析器（七）總結雖然文章的標題是詞法分析，但

C# 詞法分析器（二）輸入緩沖和代碼定位

自己 ML 轉換 .html 優點有時表示 error hub 系列導航（一）詞法分析介紹（二）輸入緩沖和代碼定位（三）正則表達式（四）構造 NFA （五）轉換 DFA （六）構造詞法分析器（七）總結一、輸入緩沖在介紹如何進行

編譯原理實驗 —— 詞法分析器

// Lexical_Analysis.cpp : 定義控制檯應用程式的入口點。 // #include "stdio.h" #include "stdlib.h" #include "string.h" #include "iostream" using namespace std; //詞法分析程式

詞法分析器-C語言

#include<stdio.h> #include<conio.h> #include<math.h> #include<string.h> #include<stdlib.h> int i, row = 0, line = 0

Graduation Project——詞法分析器

語言處理器的第一個組成部分是詞法分析器（lexer），也叫scanner。程式的原始碼最初是一長串字串。從內部來看，原始碼中的換行也能用專門的（不可見）換行符表示。所以這一長串程式碼會首先被處理為一個一個的token，也成為token流。 token流譬如下面這一行程式碼： whi

基於C++的詞法分析器

實驗目的通過設計編制除錯一個具體的詞法分析程式，加深對詞法分析原理的理解。並掌握在對程式設計語言源程式進行掃描過程中將其分解為各類單詞的詞法分析方法。編制一個讀單詞過程，從輸入的源程式中，識別出各個具有獨立意義的單詞(token)，即基本保留字、識別符號、常量、運算子、分隔符五大類，並依

[原始碼和文件分享]基於有限自動機的詞法分析器構造

一、目標本次實驗的主要目的是對自定義的程式語言的詞法分析器程式構造，我從 C 語言當中選擇了部分具有代表性的子集，實現詞法分析器，主要是對編譯原理課程中學習的從正則達式轉化為 NFA，再從 NFA 轉化為 DFA 以及後續的程式碼生成的過程有更深刻的認識。同時，也希望對於在編譯原理課程中所體現

詞法分析器

詞法分析器函式 skip_one_line: 跳過一行, 會在skip_comment中註釋為//的時候呼叫 skip_comment: // 和 /**/ skip_blanks: 跳過空白行, 會在skip_comment處理完註釋之後呼叫, 同時在get_next_token這個核心

java編譯器原始碼分析之詞法分析器

java編譯器是什麼？編譯簡單理解就是一種高階語言到另一種低階語言的翻譯過程；而執行這個過程的主體稱為編譯器。尋常所說的編譯器是指把組合語言轉變成機器語言，也稱目的碼，即CPU指令集。組合語言是一種比機器語言對人友好的語言，但不同機器硬體構造不一樣，驅動機器的

編譯原理-詞法分析器1(lex實現)

編譯原理課實驗一是詞法分析器，但是在網上查了很多資料，發現用lex實現還要用Linux，Windows可以用對應的flex實現，但是網上的資料很零散，所以整理了一下從安裝到配置，到實現一個詞法分析器的過程一、安裝開啟安裝好的軟體，選Basic

【編譯原理】利用Flex工具生成C語言詞法分析器

Flex構造C語言詞法分析器可以識別大部分的C語言關鍵字和識別符號，可以去除註釋（多行單行都可以），可以識別整數和浮點數，可以識別錯誤的浮點數。 lex檔案結構： [第一部分：定義段] /* *按照C語言語法，宣告檔案包含，巨集定義，常數定義，全域性

用python寫一個簡單的詞法分析器

編譯原理老師要求寫一個java的詞法分析器，想了想決定用python寫一個。目標能識別出變數，數字，運算子，界符和關鍵字，用excel表打印出來。有了目標，想想要怎麼實現詞法分析器。 1.先進行預處理，把註釋，多餘的空格，空行去掉。 2.一行一行掃

二、詞法分析器構造原理

一、正則式（regular expression） 1.正則式定義： ε表示語言{ε}，a表示語言{a}，(r)|(s)表示語言L(r)並L(s)，(r)(s)表示語言L(r)L(s)，(r)*表示語言(L(r))* 正則式優先順序為閉包>連線>或，即((

C#詞法分析器之詞法分析的使用詳解(一)

雖然文章的標題是詞法分析，但首先還是要從編譯原理說開來。編譯原理應該很多人都聽說過，雖然不一定會有多麼瞭解。簡單的說，編譯原理就是研究如何進行編譯——也就如何從程式碼（*.cs 檔案）轉換為計算機可以執行的程式（*.exe 檔案）。當然也有些語言如 JavaScrip

[轉貼]構造可配置的詞法分析器(已完結)

先來段前言。今天跟某vczh在群裡面聊天的時候，他突然很詭祕的說要我看看他的空間連線。然後翻開一看，我靠，一連串1-7的標題。從尾到頭倒讀一通，才發現寫的挺清楚的，比一般的教科書都要到位。不愧是要去google/msra實習的編譯器狂人。（此人成天琢磨編譯器）遂轉發，希望對有志瞭解編譯器工作原理的人們

詞法分析器Lexer

詞法分析

編碼目標

約定

程式流程圖

關鍵程式碼

首字元型別判斷

如果首字元為字母

如果首字元是數字

如果首字元是空格

如果首字元是特殊符號

相關推薦