Google 開源技術protobuf
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow
也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!
1. Protobuf簡介
protobuf是google提供的一個開源序列化框架,類似於XML,JSON這樣的資料表示語言,其最大的特點是基於二進位制,因此比傳統的XML表示高效短小得多。雖然是二進位制資料格式,但並沒有因此變得複雜,開發人員通過按照一定的語法定義結構化的訊息格式,然後送給命令列工具,工具將自動生成相關的類,可以支援php、java、c++、python等語言環境。通過將這些類包含在專案中,可以很輕鬆的呼叫相關方法來完成業務訊息的序列化與反序列化工作。
protobuf在google中是一個比較核心的基礎庫,作為分散式運算涉及到大量的不同業務訊息的傳遞,如何高效簡潔的表示、操作這些業務訊息在google這樣的大規模應用中是至關重要的。而protobuf這樣的庫正好是在效率、資料大小、易用性之間取得了很好的平衡。
官方文件
http://code.google.com/p/protobuf/
2. Protobuf如何工作
你首先需要在一個 .proto 檔案中定義你需要做序列化的資料結構資訊。每個ProtocolBuffer資訊是一小段邏輯記錄,包含一系列的鍵值對。這裡有個非常簡單的 .proto 檔案定義了個人資訊:
message Person { required string name=1; required int32 id=2; optional string email=3; enum PhoneType { MOBILE=0; HOME=1; WORK=2; } message PhoneNumber { required string number=1; optional PhoneType type=2 [default=HOME]; } repeated PhoneNumber phone=4;}
有如你所見,訊息格式很簡單,每個訊息型別擁有一個或多個特定的數字欄位,每個欄位擁有一個名字和一個值型別。值型別可以是數字(整數或浮點)、布林型、字串、原始位元組或者其他ProtocolBuffer型別,還允許資料結構的分級。你可以指定可選欄位,必選欄位和重複欄位。你可以在( http://code.google.com/apis/protocolbuffers/docs/proto.html )找到更多關於如何編寫 .proto 檔案的資訊。
一旦你定義了自己的報文格式(message),你就可以執行ProtocolBuffer編譯器,將你的 .proto 檔案編譯成特定語言的類。這些類提供了簡單的方法訪問每個欄位(像是 query() 和 set_query() ),像是訪問類的方法一樣將結構序列化或反序列化。例如你可以選擇C++語言,執行編譯如上的協議檔案生成類叫做 Person 。隨後你就可以在應用中使用這個類來序列化的讀取報文資訊。你可以這麼寫程式碼:
Person person;person.set_name("John Doe");person.set_id(1234);person.set_email("[email protected]");fstream.output("myfile",ios::out | ios::binary);person.SerializeToOstream(&output);
然後,你可以讀取報文中的資料:
fstream input("myfile",ios::in | ios:binary);Person person;person.ParseFromIstream(&input);cout << "Name: " << person.name() << endl;cout << "E-mail: " << person.email() << endl;
你可以在不影響向後相容的情況下隨意給資料結構增加欄位,舊有的資料會忽略新的欄位。所以如果使用ProtocolBuffer作為通訊協議,你可以無須擔心破壞現有程式碼的情況下擴充套件協議。
你可以在API參考( http://code.google.com/apis/protocolbuffers/docs/reference/overview.html )中找到完整的參考,而關於ProtocolBuffer的報文格式編碼則可以在( http://code.google.com/apis/protocolbuffers/docs/encoding.html )中找到。
3. Protobuf訊息定義
要通訊,必須有協議,否則雙方無法理解對方的碼流。在protobuf中,協議是由一系列的訊息組成的。因此最重要的就是定義通訊時使用到的訊息格式。
訊息由至少一個欄位組合而成,類似於C語言中的結構。每個欄位都有一定的格式。
欄位格式:限定修飾符① | 資料型別② | 欄位名稱③ | = | 欄位編碼值④ | [欄位預設值⑤]
①.限定修飾符包含 required\optional\repeated
Required: 表示是一個必須欄位,必須相對於傳送方,在傳送訊息之前必須設定該欄位的值,對於接收方,必須能夠識別該欄位的意思。傳送之前沒有設定required欄位或者無法識別required欄位都會引發編解碼異常,導致訊息被丟棄。
Optional:表示是一個可選欄位,可選對於傳送方,在傳送訊息時,可以有選擇性的設定或者不設定該欄位的值。對於接收方,如果能夠識別可選欄位就進行相應的處理,如果無法識別,則忽略該欄位,訊息中的其它欄位正常處理。---因為optional欄位的特性,很多介面在升級版本中都把後來新增的欄位都統一的設定為optional欄位,這樣老的版本無需升級程式也可以正常的與新的軟體進行通訊,只不過新的欄位無法識別而已,因為並不是每個節點都需要新的功能,因此可以做到按需升級和平滑過渡。
Repeated:表示該欄位可以包含0~N個元素。其特性和optional一樣,但是每一次可以包含多個值。可以看作是在傳遞一個數組的值。
②.資料型別
Protobuf定義了一套基本資料型別。幾乎都可以對映到C++\Java等語言的基礎資料型別.
protobuf 資料型別 |
描述 |
打包 |
C++語言對映 |
bool |
布林型別 |
1位元組 |
bool |
double |
64位浮點數 |
N |
double |
float |
32為浮點數 |
N |
float |
int32 |
32位整數、 |
N |
int |
uin32 |
無符號32位整數 |
N |
unsigned int |
int64 |
64位整數 |
N |
__int64 |
uint64 |
64為無符號整 |
N |
unsigned __int64 |
sint32 |
32位整數,處理負數效率更高 |
N |
int32 |
sing64 |
64位整數 處理負數效率更高 |
N |
__int64 |
fixed32 |
32位無符號整數 |
4 |
unsigned int32 |
fixed64 |
64位無符號整數 |
8 |
unsigned __int64 |
sfixed32 |
32位整數、能以更高的效率處理負數 |
4 |
unsigned int32 |
sfixed64 |
64為整數 |
8 |
unsigned __int64 |
string |
只能處理 ASCII字元 |
N |
std::string |
bytes |
用於處理多位元組的語言字元、如中文 |
N |
std::string |
enum |
可以包含一個使用者自定義的列舉型別uint32 |
N(uint32) |
enum |
message |
可以包含一個使用者自定義的訊息型別 |
N |
object of class |
N 表示打包的位元組並不是固定。而是根據資料的大小或者長度。
例如int32,如果數值比較小,在0~127時,使用一個位元組打包。
關於列舉的打包方式和uint32相同。
關於message,類似於C語言中的結構包含另外一個結構作為資料成員一樣。
關於 fixed32 和int32的區別。fixed32的打包效率比int32的效率高,但是使用的空間一般比int32多。因此一個屬於時間效率高,一個屬於空間效率高。根據專案的實際情況,一般選擇fixed32,如果遇到對傳輸資料量要求比較苛刻的環境,可以選擇int32.
③.欄位名稱
欄位名稱的命名與C、C++、Java等語言的變數命名方式幾乎是相同的。
protobuf建議欄位的命名採用以下劃線分割的駝峰式。例如 first_name 而不是firstName.
④.欄位編碼值
有了該值,通訊雙方才能互相識別對方的欄位。當然相同的編碼值,其限定修飾符和資料型別必須相同。
編碼值的取值範圍為 1~2^32(4294967296)。
其中 1~15的編碼時間和空間效率都是最高的,編碼值越大,其編碼的時間和空間效率就越低(相對於1-15),當然一般情況下相鄰的2個值編碼效率的是相同的,除非2個值恰好實在4位元組,12位元組,20位元組等的臨界區。比如15和16.
1900~2000編碼值為Google protobuf 系統內部保留值,建議不要在自己的專案中使用。
protobuf 還建議把經常要傳遞的值把其欄位編碼設定為1-15之間的值。
訊息中的欄位的編碼值無需連續,只要是合法的,並且不能在同一個訊息中有欄位包含相同的編碼值。
建議:專案投入運營以後涉及到版本升級時的新增訊息欄位全部使用optional或者repeated,儘量不實用required。如果使用了required,需要全網統一升級,如果使用optional或者repeated可以平滑升級。
⑤.預設值。當在傳遞資料時,對於required資料型別,如果使用者沒有設定值,則使用預設值傳遞到對端。當接受資料是,對於optional欄位,如果沒有接收到optional欄位,則設定為預設值。
關於import
protobuf 介面檔案可以像C語言的h檔案一個,分離為多個,在需要的時候通過 import匯入需要對檔案。其行為和C語言的#include或者java的import的行為大致相同。
關於package
避免名稱衝突,可以給每個檔案指定一個package名稱,對於java解析為java中的包。對於C++則解析為名稱空間。
關於message
支援巢狀訊息,訊息可以包含另一個訊息作為其欄位。也可以在訊息內定義一個新的訊息。
關於enum
列舉的定義和C++相同,但是有一些限制。
列舉值必須大於等於0的整數。
使用分號(;)分隔列舉變數而不是C++語言中的逗號(,)
eg.
enum VoipProtocol
{
H323 = 1;
SIP = 2;
MGCP = 3;
H248 = 4;
}
4. Protobuf的PHP例項
以下,為了深刻理解protobuf。我們使用php示例:
php protobuf 下載地址http://code.google.com/p/pb4php/downloads/list
C# protobuf 下載地址http://code.google.com/p/protobuf/downloads/listprotobuf語言使用 http://www.cnblogs.com/dkblog/archive/2012/03/27/2419010.html
php使用protobuf,然後再測試通訊。
下載的example的pb_proto_test_new.php是由問題的。
1、 下載:php protobuf
下載地址http://code.google.com/p/pb4php/downloads/list
http://pb4php.googlecode.com/files/protocolbuf_025.zip將下載好的proto擴充套件庫,解壓到wwwroot目錄下
2、先寫一個proto檔案
我們使用庫裡面提供的proto檔案:test_new.proto。這個檔案是在example。我們把它移到新建的檔案mytest目錄下。
message Person{
required string name = 1;
required int32 id = 2;
optional string email = 3;
enum PhoneType {
MOBILE = 0;
HOME = 1;
WORK = 2;
}
message PhoneNumber {
required string number = 1;
optional PhoneType type = 2 [default = HOME];
}
// a simple comment
repeated PhoneNumber phone = 4;
optional string surname = 5;
}
message AddressBook {
repeated Person person = 1;
}
message Test {
repeated string person = 2;
}
3、生成pb_proto_test_new.php檔案
其實該檔案已經存在example目錄下啦。
但有原始生成的這個檔案有問題。根本沒有這個常量:var $wired_type = PBMessage::WIRED_STRING;
php不支援proto裡的package,所以php版編譯之前先要刪掉package語句。然後在mytest目錄建立一個create_test_new.php檔案存放編譯命令:
<?php
require_once('../parser/pb_parser.php');
$parser = new PBParser();
$parser->parse('./test_new.proto');
echo 'ok;
結果在mytest目錄下生成一個檔案:pb_proto_test_new.php
到此,假如這個資料協議是在客戶端。那麼我們客戶端也使用php程式碼:我們直接使用程式碼庫example裡面的示例:
4、執行例項:
即執行test_new.php:
<?php
// first include pb_message
require_once('../message/pb_message.php');
// include the generated file
require_once('./pb_proto_test_new.php');
// generate message with the new definition with surname
// now just test the classes
$book = new AddressBook();
$person = $book->add_person();
$person->set_name('Nikolai');
$person = $book->add_person();
$person->set_name('Kordulla');
$person->set_surname('MySurname');
$phone_number = $person->add_phone();
$phone_number->set_number('0711');
$phone_number->set_type(Person_PhoneType::WORK);
$phone_number = $person->add_phone();
$phone_number->set_number('0171');
$phone_number->set_type(Person_PhoneType::MOBILE);
$phone_number = $person->add_phone();
$phone_number->set_number('030');
// serialize
$string = $book->SerializeToString();
// write it to disk
file_put_contents('test.pb', $string);
?>
test.pb是生成的二進位制檔案 基本結構一個位元組型別+ 位元組長度
從以上操作和類庫原始碼來看打包速度可能慢很多。 空間節省倒是非常好。符合 protobuf 定義:效率、資料大小、易用性之間的平衡。
5、伺服器讀取協議內容.
假設test.pb檔案是經過網路傳輸到伺服器上的(這裡都是在本地)。
然後伺服器端也可以根據這個協議,生成對應類。例如example下面的test.proto:
message Person
{
required string name = 1;
required int32 id = 2;
optional string email = 3;
enum PhoneType {
MOBILE = 0;
HOME = 1;
WORK = 2;
}
message PhoneNumber {
required string number = 1;
optional PhoneType type = 2 [default = HOME];
}
// a simple comment
repeated PhoneNumber phone = 4;
}
message AddressBook {
repeated Person person = 1;
}
執行test.php:
<?php
// EXECUTE test_new.php first
// first include pb_message
require_once('../message/pb_message.php');
// now read it with the old file
// include the generated file
require_once('./pb_proto_test.php');
$string = file_get_contents('./test.pb');
// Just read it
$book = new AddressBook();
$book->parseFromString($string);
var_dump($book->person_size());
$person = $book->person(0);
var_dump($person->name());
$person = $book->person(1);
var_dump($person->name());
var_dump($person->phone(0)->number());
var_dump($person->phone(0)->type());
var_dump($person->phone(1)->number());
var_dump($person->phone(1)->type());
var_dump($person->phone(2)->number());
var_dump($person->phone(2)->type());
?>
讀取出客戶端相應的內容。
5. Protobuf與Thrift
資料型別
protobuf | thrift | protobuf | thrift | protobuf | thrift | protobuf | thrift |
---|---|---|---|---|---|---|---|
double | double | float | byte | i16 | |||
int32 | i32 | int64 | i64 | uint32 | uint64 | ||
sint32 | sint64 | fixed32 | fixed64 | ||||
sfixed32 | sfixed64 | bool | bool | string | string | ||
bytes | binary | message | struct | enum | enum | service | service |
綜合對比
protobuf | thrift | |
功能特性 | 主要是一種序列化機制 | 提供了全套RPC解決方案,包括序列化機制、傳輸層、併發處理框架等 |
支援語言 | C++/Java/Python | C++, Java, Python, Ruby, Perl, PHP, C#, Erlang, Haskell |
易用性 | 語法類似,使用方式等類似 | |
生成程式碼的質量 | 可讀性都還過得去,執行效率另測 | |
升級時版本相容性 | 均支援向後相容和向前相容 | |
學習成本 | 功能單一,容易學習 | 功能豐富、學習成本高 |
文件&社群 | 官方文件較為豐富,google搜尋protocol buffer有2000W+結果,google group被牆不能訪問 | 官方文件較少,沒有API文件,google搜尋apache thrift僅40W結果,郵件列表不怎麼活躍 |
效能對比
由於thrift功能較protobuf豐富,因此單從序列化機制上進行效能比較,按照序列化後位元組數、序列化時間、反序列化時間三個指標進行,對thrift的二進位制、壓縮、protobuf三種格式進行對比。
測試方法:取了15000+條樣本資料,分別寫了三個指標的測試程式,在我自己的電腦上執行,其中時間測試迴圈1000次,總的序列化/反序列化次數1500W+。
平均位元組數:
thrift二進位制 | 535 |
thrift壓縮 | 473 |
protobuf | 477 |
序列化(1500W次)時間(ms):
thrift二進位制 | 306034 |
thrift壓縮 | 304256 |
protobuf | 177652 |
反序列化(1500W次)時間(ms):
thrift二進位制 | 287972 |
thrift壓縮 | 315991 |
protobuf | 157192 |
thrift的時間測試可能不是很準,由於thrift產生程式碼的複雜性,編寫的測試程式碼為了適應其介面,在呼叫堆疊上可能有一些額外開銷。