怎樣刪除C/C++程式碼中的所有註釋？淺談狀態機的程式設計思想

阿新 • • 發佈：2019-02-04

K&R習題1-23中，要求“編寫一個程式，刪除C語言程式中所有的註釋語句。要正確處理帶引號的字串與字元常量。在C語言中，註釋不允許巢狀”。

如果不考慮字元常量和字串常量，問題確實很簡單。只需要去掉//和/* */的註釋。

考慮到字元常量'\''和字串常量"he\"/*hehe*/"，還有類似<secure/_stdio.h>的標頭檔案路徑符號以及表示式5/3中的除號/，以及情況就比較複雜了。

另外，還有單行註釋//中用\進行折行註釋的蛋疼情況（這個情況連很多編輯器高亮都沒考慮到）。

我想，這種問題最適合用正則表示式來解析，perl之類的語言應當很好處理，問題是這裡讓你用C語言實現，但是C語言對正則表示式並沒有顯式的支援。

學過編譯原理的應該知道，正則表示式對應三型文法，也就對應著一個有限狀態自動機（可以用switch偏重演算法來實現，或者用狀態轉換矩陣/表偏重資料結構來實現），

所以這裡的問題其實是設計一個狀態機，把輸入的字元流扔進去跑就可以了。

那什麼是狀態機呢？K&R第一章怎麼沒有介紹呢？

【一個簡單的狀態機】

先看《K&R》第一章的一個簡單習題1-12："編寫一個程式，以每行一個單詞的形式列印其輸入"

在這個題目之前，1.5.4節的單詞計數示例中，其實K&R已經展示了一個非常簡單的狀態機。但沒有提到這種程式設計思想。

當然這個題目也可以狀態機的思想來程式設計。

回到題目，我們設初始的狀態state為OUT，表示當前字元不在單詞中（不是單詞的組成字元），如果當前字元在單詞中（屬於單詞的一部分），則state設為IN。

顯然字元只能處於上述兩種狀態之一，有了這2個狀態，我們就可以藉助狀態來思考問題 ——

（1）當前狀態為OUT：若當前字元是空白字元(空格、製表符、換行符），則維護當前狀態仍為OUT；否則改變狀態為IN。

（2）當前狀態為IN：若遇到的當前字元是非空白字元，則維護當前狀態為IN；否則改變狀態為OUT。

處於不同的狀態，根據題意可以給予相對應的動作——

每當狀態為IN的時候，意味字元屬於單詞的一部分，輸出當前字元；

而當狀態從IN切換為OUT的時候，說明一個單詞結束了，此時我們輸出一個回車符；

狀態為OUT則什麼也不輸出；

可以看出，藉助自定義的狀態，可以使程式設計思路更加清晰。

在遍歷輸入字元流的時候，程式（機器）就只能處於兩種狀態，對應不同狀態或狀態切換可以有相應的處理動作。

這樣的程式不妨稱為“狀態機”。

按照上面的思路，程式碼實現就非常簡單了——

#include <stdio.h>
#define OUT 0 /* outside a word */
#define IN 1  /* inside a word  */
int main(void)
{
    int c, state;
    state = OUT;
    while ( ( c = getchar() ) != EOF ) {
        if (state == OUT) {
            if (c == ' ' || c == '\t' || c == '\n')
                state = OUT;
            else {
                state = IN;
                putchar(c); //action
            }
        } else {
            if (c != ' ' && c != '\t' && c != '\n') {
                state = IN;
                putchar(c); //action
            } else {
                putchar('\n');//action
                state = OUT;
            }
        }
    }
    return 0;
}

讓我們回到主題吧——

【“編寫一個程式，刪除C語言程式中所有的註釋語句。要正確處理帶引號的字串與字元常量。在C語言中，註釋不允許巢狀”】

按照註釋的各方面規則，我們來設計一個狀態機——

00）設正常狀態為0，並初始為正常狀態

每遍歷一個字元，就依次檢查下列條件，若成立或全部檢查完畢，則回到這裡檢查下一個字元

01）狀態0中遇到/，說明可能會遇到註釋，則進入狀態1　　　　　　　　　　ex. int a = b; /

02）狀態1中遇到*，說明進入多行註釋部分，則進入狀態2　　　　　　　　　ex. int a= b; /*

03）狀態1中遇到/，說明進入單行註釋部分，則進入狀態4　　　　　　　　　ex. int a = b; //

04）狀態1中沒有遇到*或/，說明/是路徑符號或除號，則恢復狀態0　　　　 ex. <secure/_stdio.h> or 5/3

05）狀態2中遇到*，說明多行註釋可能要結束，則進入狀態3　　　　　　　　ex. int a = b; /*heh*

06）狀態2中不是遇到*，說明多行註釋還在繼續，則維持狀態2　　　　　　　ex. int a = b; /*hehe

07）狀態3中遇到/，說明多行註釋要結束，則恢復狀態0　　　　　　　　　　ex. int a = b; /*hehe*/

08）狀態3中遇到*，則恢復狀態3　　　　　　　　　　 ex. int a = b; /***

09）狀態3中不是遇到/或*，說明多行註釋只是遇到*，恢復狀態2 　 ex. int a = b; /*hehe*h

10）狀態4中遇到\，說明可能進入折行註釋部分，則進入狀態5　　　　　　　ex. int a = b; //hehe\

11）狀態5中遇到\，說明可能進入折行註釋部分，則維護狀態5　　　　　　　ex. int a = b; //hehe\\\

12）狀態5中遇到其它字元，則說明進入了折行註釋部分，則恢復狀態4　　　 ex. int a = b; // hehe\a or hehe\<enter>

13）狀態4中遇到回車符\n，說明單行註釋結束，則恢復狀態0 　　　　　　　ex. int a = b; //hehe<enter>

14）狀態0中遇到'，說明進入字元常量中，則進入狀態6 　　　　　　　　　　ex. char a = '

15）狀態6中遇到\，說明遇到轉義字元，則進入狀態7　　　　　　　　　　　ex. char a = '\

16）狀態7中遇到任何字元，都恢復狀態6 　　　　　　　　　　　　　　　　ex. char a = '\n 還有如'\t', '\'', '\\' 等主要是防止'\''，誤以為結束

17）狀態6中遇到'，說明字元常量結束，則進入狀態0　　　　　　　　　　　ex. char a = '\n'

18）狀態0中遇到"，說明進入字串常量中，則進入狀態8　　　　　　　　　ex. char s[] = "

19）狀態8中遇到\，說明遇到轉義字元，則進入狀態9　　　　　　　　　　　ex. char s[] = "\

20）狀態9中遇到任何字元，都恢復狀態8　　　　　　　　　　　　　　　　ex. char s[] = "\n 主要是防止"\"，誤以為結束

21）狀態8中遇到"字元，說明字串常量結束，則恢復狀態0　　　　　　　　ex. char s[] = "\"hehe"

前面說過，不同狀態可以有相應的動作。比如狀態0、6、7、8、9都需要輸出當前字元，再考慮一些特殊情況就可以了。

讀者實現時可以藉助debug巨集定義，將測試語句輸出到標準錯誤輸出，需要時可以重定位到標準輸出，即2>&1，然後通過重定向|到more進行檢視。

上面的狀態機涉及到了[0, 9]一共10種狀態，對應的狀態轉換圖（或者說狀態機/自動機）如下：

有了這些狀態表示，編寫程式碼就很容易了——

#include<stdio.h>
int main()
{
	char c;
	int state=0;
	freopen("1.in","r",stdin);
	freopen("1.out","w",stdout);
	while((c=getchar())!=EOF)
	{
		switch(state)
		{
		case 0:
			if(c=='/')// ex. [/]
				state=1;
			else if(c=='\'')// ex. [']
				state=6;
			else if(c=='\"')// ex. ["]
				state=8;
			else
				putchar(c);
			break;
		case 1:
			if(c=='*')// ex. [/*]
				state=2;
			else if(c=='/')// ex. [//]
				state=4;
			else
			{ // ex. [<secure/_stdio.h> or 5/3]
				putchar('/');
				putchar(c);
				state=0;
			}
			break;
		case 2:
			if(c=='*') // ex. [/*he*]
				state=3;
			else // ex. [/*heh]
				state=2;
			break;
		case 3:
			if(c=='/')// ex. [/*heh*/]
				state=0;
			else if(c=='*')
				state=3;//ex. [/***]注意這裡，不加這個條件，*的個數是奇數的時候出錯
			else// ex. [/*heh*e]
				state=2;
			break;
		case 4:
			if(c=='\\')// ex. [//hehe\]
				state=5;
			else if(c=='\n')// ex. [//hehe<enter>]
			{
				state=0;
				putchar(c);
			}
			break;
		case 5:
			if(c=='\\')// ex. [//hehe\\\\\]
				state=5;
			else// ex. [//hehe\<enter> or //hehe\a]
				state=4;
			break;
		case 6:
			if(c=='\\')// ex. ['\]
				state=7;
			else if(c=='\'')// ex. ['\n' or '\'' or '\t' ect.]
			{
				state=0;
				putchar(c);
			}
			break;
		case 7:// ex. ['\n or '\' or '\t etc.]
			state=6;
			break;
		case 8:
			if(c=='\\')// ex. ["\]
				state=9;
			else if(c=='\"')// ex. ["\n" or "\"" or "\t" ect.]
			{
				state=0;
				putchar(c);
			}
			break;
		case 9:// ex. ["\n or "\" or "\t ect.]
			state=8;
			break;
		}
		if(state==6||state==7||state==8||state==9)
			putchar(c);
	}
	return 0;
}

【測試用例（1）a.out < test.c > test2.c】
test.c如下：

/*
 *This code make no sense(Compiled successfully), 
 *but for exercise1_23 in <<K&R>> to test remove all comments in C code.
 */

#          include         <stdio.h>
#  include  <secure/_stdio.h>
#include      "/Users/apple/blog/zhanghaiba/KandR/test.h"
#define CHAR '\'' /*/test/*/
#  define LESS(i) ( ((i) << 31) / 2 )
#        define STRING "\"string\"" //to ensure legal

int main(void)
{
    int w; // \a
    int x;/*hehe*/
    double y; // \ 
    double z; // \b \\\\
    int none;

    ///*testing*/
    int idx;
    if (idx > 3 && idx < 6) idx = idx/100; //go and \
    con_tinue\
    hehe

    /* // */    
    char a = '/';    // /
    char b = '*';    // *
    char c = '\'';    // '
    char d = '\n';    // enter
    char e = '\"';    // "    
    char f = '\\';    // \
    char g = '<';    // <
    char h = '>';    // >
    char i = '"';    // "

    /* special***string */
    char special0[] = "\"hello, world!\"";
    char special1[] = "//test";
    char special2[] = "he\"/*hehe*/";
    char *special = " \' hi \0\b\t \\\\ \a\e\f\n\r\v wolegequ \\ ";
    return        0;
}

測試截圖對比如下：

（說明：由於編輯器高亮的原因，注意//後面加字元\的折行註釋部分顏色其實不對的，另外17行\後面是有一個空格的）

【測試用例（2）./a.out < ~/open_src_code/glibc-2.17/malloc/malloc.c > test2.c】

glibc-2.17原始碼中的的malloc.c包括空行和註釋有5163行，經過上面去註釋後代碼變成3625行。

測試發現去註釋成功。這裡不可能貼對比程式碼了。

有興趣的讀者可自行測試。

歡迎提供測試不正確的用例程式碼。

轉自：http://www.cnblogs.com/zhanghaiba/p/3569928.html

怎樣刪除C/C++程式碼中的所有註釋？淺談狀態機的程式設計思想

K&R習題1-23中，要求“編寫一個程式，刪除C語言程式中所有的註釋語句。要正確處理帶引號的字串與字元常量。在C語言中，註釋不允許巢狀”。如果不考慮字元常量和字串常量，問題確實很簡單。只需要去掉//和/* */的註釋。考慮到字元常量'\''和字串常量"he

編寫一個刪除C語言程式中所有註釋語句的程式

#include <stdio.h> void rcomment (int c); void in_comment_one (void); //該函式用於處理/*及*/的註釋符 voi

Eclipse刪除程式碼中所有註釋及空格

替換方法： Ctrl+F 刪除java註釋: /\*{1,2}[\s\S]*?\*/ Ctrl+F 刪除xml註釋: <!-[\s\S]*?--> Ctrl+F 刪除空白行: ^\s*\n 選擇正則表示式，替換全部即可。具體見下圖示：

為什麼我不贊成在程式碼中寫註釋：談寫註釋的幾種境界

程式碼中的註釋是有價值的，通常也是必須的，但沒有註釋更好。本文會解釋其原因。我的目標是，當我閱讀我編寫程式碼時，應該完全清楚它的作用。名稱，結構，程式碼背後的意圖 – 都需要儘可能的清晰和明顯。我常常希望通過註釋來增加更多的細節以及待改進的描述，我擔心將來看程式碼時候會面臨看不懂的困惑，所以註

刪除 java程式碼中所有的註釋

刪除 java程式碼中所有的註釋.java public class CleanCommons { private static Pattern pattern = Pattern.compile("/\\*.+?\\*/", Pattern.DOTALL); public stati

編寫程式將C / C++程式碼中的註釋去掉

今天看到一道題，覺得可以拿來鍛鍊一下。就自己做了一遍。 /************************ *功能：輸入合法的C、C++程式，將註釋去掉後輸出 *注意：“//”“/*”等等雙引

C#替換html程式碼中所有img標籤的路徑保留檔名稱

匹配img標籤路徑的正則表示式為：(?i)(?<=<img\b[^>]*?src=\s*(['""]?))([^'""]*/)+(?=[^'""/]+\1) string url = string.Empty; string turl=""//替換的路徑

遞迴實現刪除程式碼中的註釋和空行

最近公司讓寫軟著，需要原始碼，但是又不能有註釋和空行，所以就自己寫了一個小程式，在這裡記錄一下。 public static void main(String[] args) { getFile(new File("E:

哈夫曼樹詳細講解（帶例題和C語言程式碼實現——全註釋）

** 哈夫曼樹詳細講解（帶例題和C語言程式碼實現——全註釋） ** 定義哈夫曼樹又稱最優二叉樹，是一種帶權路徑長度最短的二叉樹。所謂樹的帶權路徑長度，就是樹中所有的葉結點的權值乘上其到根結點的路徑長度（若根結點為0層，葉結點到根結點的路徑長度為葉結點

.NET/C# 在程式碼中測量程式碼執行耗時的建議（比較系統性能計數器和系統時間）

我們有很多種方法評估一個方法的執行耗時，比如使用效能分析工具，使用基準效能測試。不過傳統的在程式碼中編寫計時的方式依然有效，因為它可以生產環境或使用者端得到真實環境下的執行耗時。如果你希望在 .NET/C# 程式碼中編寫計時，那麼閱讀本文可以獲得一些建議。閱讀本文也可以瞭解到 Qu

Notepad++刪除程式碼中的註釋，可刪除//單行註釋和/**/多行註釋

申請軟體著作權時需要清除程式碼中的註釋，可以通過word和Notepad++組合操作來快速的完成 1。使用word的插入檔案功能合併多個原始碼檔案，操作方法為：新開啟1個word檔案，在“插入”標籤欄下找到“物件”點選右邊的小三角下拉選單裡選擇“檔案中的文字...”，然後在

IDEA外掛：快速刪除Java程式碼中的註釋

背景有時，我們需要刪除Java原始碼中的註釋。目前有不少方法，比如：實現狀態機。該方式較為通用，適用於多種語言（取決於狀態機支援的註釋符號）。正則匹配。該方式容易誤判，尤其是容易誤刪字串。利用第三方庫。該方式侷限性較強，比如不同語言可能有不同的第三方庫。本文針對Java語言，介紹

刪除數據庫中所有表

arc 刪除數據庫 pre exe rom 所有 varchar lec sql use 數據庫名(是要刪除表的所在的那個數據庫的名稱)GOdeclare @sql varchar(8000)while (select count(*) from sysobjects wh

5.C#知識點:ref和Out關鍵字淺談

generic 說明需要某某 mil 打印通過所有 read 首先我們要知道ref和out在C#裏面是什麽? 答:它們倆是C#裏面的關鍵字。他們倆是幹啥的呢? 答:他們倆是方法參數的修飾符號,一但使用,方法定義和方法都用都要使用這個關鍵字,這一點是死規定。

mysql 快速生成刪除數據庫中所有的表的語句

HERE ble 刪除 sel rom cat sql exists cpp SELECT concat(‘DROP TABLE IF EXISTS ‘, table_name, ‘;‘) FROM information_schema.tables WHERE tabl

程式碼中所有的報錯原因，及時找到錯誤

201-206都表示伺服器成功處理了請求的狀態程式碼，說明網頁可以正常訪問。 200（成功）伺服器已成功處理了請求。通常，這表示伺服器提供了請求的網頁。 201（已建立）請求成功且伺服器已建立了新的資源。 202（已接受）伺服器已接受了請求，但尚未對其進行處理。 203（非授權資訊）

C語言中的結構體與面向物件程式設計思想

沒有萬能的程式設計技術沒有隻產生正確的結果的程式語言不是每個專案的程式設計都是從零開始的 —-《Object-Oriented Programming With ANSI-C》一、C語言結構體 1、結構體是什麼 (1

[C#]控制檯程式靜態main函式淺談

眾所周知，c#中控制檯應用程式中Main函式為靜態函式，那為什麼不能是非靜態函式呢？分析如下： C#控制檯中，如果Main是非靜態函式，那麼在呼叫的時候就需要進行例項化才能被呼叫，而系統在呼叫的時候是直接呼叫的Main函式，所以要宣告成靜態函式。那可不可以通過過載Mai

EF6.0 生成的程式碼中沒有註釋的解決方法

目錄初試Entity Framework6.0 　　之前一直在使用vs2010或者是vs2008，也一直使用的EF4.0一下的版本……在之前，也習慣了Model First的EF設計方式，因為感覺，在設計介面中可以更好的幫助構思；同時，在設計介面

C 語言restrict 關鍵字的使用淺談

C99中新增加了restrict修飾的指標：由restrict修飾的指標是最初唯一對指標所指向的物件進行存取的方法，僅當第二個指標基於第一個時，才能對物件進行存取。對物件的存取都限定於基於由restrict修飾的指標表示式中。由restrict修飾的指標主要用

怎樣刪除C/C++程式碼中的所有註釋？淺談狀態機的程式設計思想

相關推薦