1. 程式人生 > >Vczh Library++3.0之可配置語法分析器(分析Demo:函式式巨集)

Vczh Library++3.0之可配置語法分析器(分析Demo:函式式巨集)

    上一篇文章提到了我開發了可配置語法分析器之後做了一個FpMacro用來生成C++有規律的程式碼。這一篇文章就從FpMacro入手,分析可配置語法分析器所需要具備的功能。首先讓我們來了解一下什麼是FpMacro。

    FpMacro主要用來產生用C++巨集很難容易產生的程式碼(譬如BOOST那個巨集)。當你需要重複產生一些區別很小但是又不能用模板解決的程式碼的時候,用巨集就不是一個好的選擇,因為這種巨集對於輸入的東西都有很多限制。譬如說因為巨集展開的順序的問題,你把另一個巨集當成高階函式傳進去,過不了幾輪遞迴就會被解釋成不知道什麼東西了。於是我開發了FpMacro來解決這個問題。首先考慮一下FpMacro需要支援的功能:

    1、根據引數的不同選擇分支
    2、迴圈產生程式碼
    3、能方便地在裡面寫C++的巨集(雖然不解釋,但是不能造成語法上的衝突)
    4、方便使用C++的各種符號(譬如說括號和逗號這種要命的東西)

    其實第四條也就是說,在呼叫FpMacro巨集的時候,逗號和括號跟一般的文字是有不同的解釋的,在不呼叫FpMacro巨集的時候,括號和逗號用來產生括號和逗號,不是語法的一部分。這會讓我們做語法分析的時候遇到很大的困難。當然如何方便的解決這種事情也就是可配置語法分析器要解決的事情了。

    於是我們可以開始設計FpMacro了:

    1、單行巨集:

1 $$define $NAME($param1,$param2) expression

    2、多行巨集:

1 $$define $NAME($param1,$param2) $$begin
2   expression
3   
4   $$define.
5 $$end     3、巨集呼叫:
1 $NAME(arg_expression_1,arg_expression_2,..)     4、陣列:
$[elem1,elem2,..]
    從上面的語法我們可以知道$$define是可以巢狀的,也就是說你可以在一個函式裡面定義子函式,然後還能將子函式傳入另一個巨集的引數讓它呼叫(就跟函式指標一樣)。於是我們知道,FpMacro巨集其實就是一些高階函式,根據各種引數,字串也好,函式也好,返回字串的。

    語法的另一個要求也能很明顯的看出來,不能跟C++裡面的#define和括號逗號什麼的混淆,除了$NAME(a,b,c)這些東西以外,括號和逗號都必須是用來產生程式碼的東西,這也是FpMacro之所以能夠真正使用的一個地方。如果所有的逗號都不被解釋成普通的文字,都用轉義$(,)的話,寫出來的程式碼會很難看的,因為C++本身逗號也很多。

    於是我們可以得到FpMacro的文法定義:
 1
         PLAIN_TEXT        = rgx(L"[^/$/[/](), /t/r/n]+");
 2         BRACKET_OPEN    = str(L"(");
 3         BRACKET_CLOSE    = str(L")");
 4         ARRAY_OPEN        = str(L"$[");
 5         ARRAY_CLOSE        = str(L"]");
 6         NAME            = rgx(L"/$[a-zA-Z_]/w*");
 7         COMMA            = str(L
",");
 8         COMMENT            = rgx(L"(////[^/r/n]*|///*([^*]|/*+[^*//])*/*+//)");
 9         STRING            = rgx(L"\"([^\\\\\"]|\\\\\\.)*\"");10         NEW_LINE        = str(L"\r\n");
11         ESCAPE            = rgx(L"/$/(/./)");
12         SPACE            = rgx(L"[ /t]+");
13 14         exp_list        = list(opt(exp_nc +*(COMMA >> exp_nc)));
15         name_list        = list(opt(NAME +*(*SPACE >> COMMA >>*SPACE >> NAME)));
16         def_list        = list(+(*NEW_LINE >> def <<*NEW_LINE));
17         ref_head        = ((str(L"$$define")>>*SPACE>>NAME) + (*SPACE>>(BRACKET_OPEN >> name_list << BRACKET_CLOSE)))[ToRefDefHead]<<*SPACE;
18 19         text_exp_nc        = (PLAIN_TEXT | ARRAY_OPEN | ARRAY_CLOSE | COMMENT | STRING | ESCAPE | SPACE)[ToText];
20         unit_exp_nc        = invoke_exp | array_exp | reference_exp | text_exp_nc | str(L"()")[ToText] | (BRACKET_OPEN >> opt(exp + opt(BRACKET_CLOSE)))[ToBracket];
21         concat_exp_nc    = list(+unit_exp_nc)[ToConcat];
22         exp_nc            = concat_exp_nc;
23 24         array_exp        = (ARRAY_OPEN >> exp_list << ARRAY_CLOSE)[ToArray];
25         reference_exp    = NAME[ToReference];
26         text_exp        = (PLAIN_TEXT | ARRAY_OPEN | ARRAY_CLOSE | COMMA | COMMENT | STRING | ESCAPE | SPACE)[ToText];
27         invoke_exp        = (reference_exp + (BRACKET_OPEN >> exp_list << BRACKET_CLOSE))[ToInvoke];
28         unit_exp        = invoke_exp | array_exp | reference_exp | text_exp | str(L"()")[ToText] | (BRACKET_OPEN >> opt(exp + opt(BRACKET_CLOSE)))[ToBracket];
29         concat_exp        = list(+unit_exp)[ToConcat];
30         exp                = concat_exp;
31 32         exp_def            = exp[ToExpDef];
33         ref_def            = (ref_head + (list(loop(exp_def, 11)) | (str(L"$$begin">> def_list << str(L"$$end"))))[ToRefDef];
34         def                = exp_def | ref_def;
35 36         macro_start        = def_list[ToMacro];
    上面的程式碼即是文法也是C++程式碼。可配置文法分析器被設計成你可以在C++裡面寫文法,然後就可以直接用文法對容器或者字串進行分析了。這裡稍微解釋一下符號的意義:

    每一條 文法都是有型別的。組合在一起的文法輸入同樣的東西,但是返回型別各不相同。這裡讓a返回int,b返回WString:
    連線1:a+b。規定a後面接著b,然後返回ParsingPair<int, WString>
    連線2:a>>b。規定a後面接著b,然後返回b(a的返回結果被忽視)
    連線3:a<<b。跟上面反過來。
    迴圈:+a,*a,opt(a)。分別代表一次或多次、零次或多次、零次或一次迴圈。我這裡還提供了一個函式loop(Rule, min, max)用來控制迴圈次數,當max==-1的時候代表沒有上限。這裡返回ParsingList<int>。
    分支:a|b。規定a或者b其中一個匹配都可以,但是要求是a和b返回的型別要一致。
    返回值轉換:a[f]。f是一個函式,接受a的結果,返回一個新結果。你可以用這種技巧來將記號轉換成表示式物件樹。
    錯誤恢復:a(f)。f是一個函式,當a發生錯誤的時候,f可以替換或新增錯誤資訊,還能決定要不要返回一個物件讓分析可以繼續下去。這裡f的結果必須跟a的型別一致。這是錯誤回覆跟返回值轉換不同的地方。
    還有其他雜項函式用來把處理結果跟VL++3.0的其他基礎類庫連線起來,譬如rgx用正則表示式產生一個接受字串,匹配字首並返回字首的分析器,等等。

    這批文章先介紹到這裡。下一篇文章我將給出FpMacro的語法樹的程式碼。可配置語法分析器的使命就是將一個字串或者容器翻譯成語法樹,或者直接計算出結果。有了語法樹之後,我們就可以得到可配置語法分析器的一些需求,然後再根據這些需求來開發出一個可配置語法分析器,讓你可以在C++裡面直接寫文法得到結果。

    可配置語法分析器跟boost::spirit不同的一點就是文法是有型別的,譬如說*a+*b返回結果ParsingPair<ParsingList<int>,ParsingList<WString>>,從而你可以知道a和b一共有多少個。boost::spirit根據瞭解(我並沒有非常詳細地閱讀它的細節),返回給你的是一個記號的迭代器,而且還很難用很漂亮的程式碼將結果轉換成我們需要的東西(當然還是能轉的,就是寫出來的程式碼不好看,特別是他上面那些例子……)。 posted on 2009-11-28 13:21 陳梓瀚(vczh) 閱讀(2862) 評論(3)  編輯 收藏 引用 所屬分類: VL++3.0開發紀事