深入挖掘protobuf: 通過protoc獲取proto檔案資訊
準備:
預備知識: 已經使用過protobuf, 熟練應用protobuf序列化在各語言間互動資訊
目標: 獲取proto內容而無需手動解析proto檔案
為proto檔案新增更多的meta資訊, 並在執行期獲取.
protoc編譯器準備
通過protobuf-2.5的原始碼或者從官網下載, 可以獲得protoc的protobuf編譯器, 這個編譯器由C++編寫, 官方支援完整的protobuf特性. 編譯器預設支援C++, python和java 三種語言的程式碼生成. 如需生成更多的語言, 可以通過官網的第三方頁面獲取.
protoc外掛原理
但我們在日常使用中, 可能需要提取proto資訊, 例如: 所有的列舉,訊息等資訊, 欄位名稱和匯出號. 自己編寫詞法解析器來做是費力不討好的. 官方推薦的方法是使用protoc外掛外掛來實現.
protoc的外掛設計比較獨特, 不使用動態連結庫或者java的jar包匯入方式, 而是直接使用了命令列來交換資料.檢視protobuf原始碼我們可以發現這樣一個檔案:
protobuf-2.5.0\src\google\protobuf\descriptor.proto
這個檔案描述了一個proto檔案的格式, 訊息組成及列舉等完整資訊. 這是一種自我描述的方法.
在找到這樣一個檔案
protobuf-2.5.0\src\google\protobuf\compiler\plugin.proto
這樣一個檔案描述: 外掛如何與protoc進行互動的協議
protoc編譯器在給定指定proto檔案及搜尋路徑後, 將各種資訊填充為descriptor.proto描述的結構後通過CodeGeneratorRequest訊息系列化為二進位制流後輸出到命令列. 外掛只用捕獲protoc命令列輸出的二進位制流, 序列化化回CodeGeneratorRequest即可獲得解析後的proto檔案內容
這裡需要注意的是: 外掛可執行檔案很有講究, 必須為protoc-gen-$NAME, 而且輸出檔名引數必須為--${NAME}_out
看一個栗子:
protoc.exe foo.proto --plugin=protoc-gen-go=..\tools\protoc-gen-go.exe --go_out foo.go --proto_path "."
這個栗子裡: $NAME=go
protoc將foo.proto檔案(搜尋路徑為當前路徑)的內容通過命令列輸出給位於..\tools\的外掛protoc-gen-go.exe, 輸出檔名字為 foo.go
descriptor.proto資訊挖掘
我們注意到在descriptor.proto檔案中包含有這樣的一個message: SourceCodeInfo, 這個訊息體裡有如下欄位
optional string leading_comments = 3;
optional string trailing_comments = 4;
這兩個欄位對於我們獲取proto檔案的meta資訊尤為重要, 所謂的meta資訊, 理解理解為C#語言中的attribute
這個attribute功能可以為一個欄位, 一個訊息擴充一些描述. 比如: 當一個欄位通過反射顯示在gui上時, gui需要獲取這個欄位的中文描述
那麼只需要如下編寫
optional int32 somevalue = 1 //@ desc=”中文描述”
位於欄位尾部的描述, 會被填充到SourceCodeInfo的 trailing_comments中, 而位於欄位上方的欄位, 會被填充到leading_comments中
SourceCodeInfo 並沒有直接掛載在message或者欄位的附近, 而是通過其下的path欄位來描述與欄位的關係, 這是個極為麻煩的設計.
其原理如下:
假設我有如下一個message
message foo
{
optional int32 v = 1; // comments
}
要獲取v後的註釋, 對應的path為 4, 0, 2, 0
4 表示descriptor中message_type所在的序號,由於message_type對應的型別DescriptorProto是一個數組, 所以0表示foo是在FileDescriptorProto的message_type陣列型別的索引為0;
如此類推: 2, 0 表示 v在DescriptorProto結構體的field成員序號為2的陣列元素的索引為0
github.com\golang\protobuf\protoc-gen-go工程內有詳細程式碼解析