Python 轉化成 PB 格式資料
阿新 • • 發佈:2018-12-24
一、概述
Protocol Buffers 是 Google 公司開發的一種輕便高效的結構化資料儲存格式,可以用於結構化資料序列化,或者說序列化。它很適合做資料儲存或 RPC 資料交換格式。可用於通訊協議、資料儲存等領域的語言無關、平臺無關、可擴充套件的序列化結構資料格式。
Protocol Buffers 簡稱為 protobuf 或 pb,下面是使用 python 解析 pb。
二、安裝
- 下載目標語言的編譯器:下載地址
- 安裝:
$ ./configure
$ make
$ sudo make install
- 驗證安裝:
protoc --version
libprotoc x.x.x
- 安裝 Python 的 protobuf 庫:
pip install protobuf
三、使用
3.1 編譯 proto 檔案
Protobuf 語義清晰,無需類似 XML 解析器的東西(因為 Protobuf 編譯器會將 .proto 檔案編譯生成對應的資料訪問類以對 Protobuf 資料進行序列化、反序列化操作)。
protoc --python_out=./ ./檔名.proto
這時會在當前目錄生成一個與檔名同名的目錄,該目錄下會有一個 .py
檔案。這個檔案會用作模組、解析規則去解析 pb 的源資料。
3.2 解析 pb 的資料
from test_pb import Test # 從剛才編譯出來的 py 檔案中 import 解析的類
message = Test()
with open('test.pb', 'rb') as fb:
pb_content = fb.read() # 如果檔案很大,則要分批讀取
# pb_content 是二進位制的pb資料,如果是檔案,則需要用 open 方法讀取資料
message.ParseFromString(pd_content)
print message
3.3 寫入資料
from test_pb import Test # 從剛才編譯出來的 py 檔案中 import 解析的類 message = Test() message.name = 'hello world' # 賦值 with open('test.pb', 'wb') as fb: # 序列化,寫入檔案 fb.write(person.SerializeToString())
3.4 probuf 轉 dict
當 probuf 的資料包含中文時,解析後對於閱讀十分不友好。同時如果想要把 probuf 物件轉化成 dict 進行後續操作的話。可以試試第三方庫:protobuf-to-dict,這個庫可以很方便的把 probuf 的資料轉化成 dict。示例程式碼如下:
from protobuf_to_dict import protobuf_to_dict
my_message = MyMessage()
# pb_my_message is a protobuf string
my_message.ParseFromString(pb_my_message)
protobuf_to_dict(my_message)
# 輸出:{'message': 'Hello'}
3.5 更多
這篇文章只是使用 python 簡單的解析、序列化。更多細節以及原理推薦閱讀Google Protocol Buffer 的使用和原理
四、錯誤
google.protobuf.message.DecodeError: Truncated message.
:首先要保證 pb source 為二進位制的資料,否則會出現各種非預期錯誤