1. 程式人生 > >Base 128 Varints 編碼(壓縮演算法)

Base 128 Varints 編碼(壓縮演算法)

Base 128 Varint可以說是一種編碼方式,也可以說是一種壓縮演算法。這種壓縮演算法是用來壓縮數字的傳輸的,壓縮的依據是基於一個現實:越小的數字,越經常使用

我們來看看一個例子:

如果我們要網路傳輸數字1,會怎樣傳輸呢?

假設我們用的是32位的整形傳輸,那麼經過編碼,這個1的傳輸形式是:

00000000 00000000 00000000 00000001

然而,在這一堆要傳輸的資料裡,幾乎所有的0都是無效資料(除了最後一個位元組裡,那些0沒辦法的無效填充),但是由於編碼的限制,又不得不把這堆0加上去。Base 128 Varints 編碼要解決的就是這個事情。那麼,Base 128 Varint是如何編碼的呢?

(1)除了最後一個位元組,varint中的每個位元組的最高位設為1,表示後面還有位元組出現

(2)每個位元組的低7位看成是一個組(group),這個組和他相鄰的下一個7位組共同儲存某個整形的“組合表示”,最低有效組在前面。

很抽象,還是舉例子說明一下

(1)1個位元組,假設數字是 0000 0001

則經過Base 128 Varint編碼後,還是原來的樣子 (0000 0001)

(2)2個位元組,這次我們來個解碼,假設經過Base 128 Varint編碼後的01串是 1010 1100 0000 0010

根據定義,第1個位元組的最高位是1,說明後面還是有資料。我們往後看,第2個位元組的最高位是0,好,說明這個數編碼後是使用2位元組的了。

取第1個位元組的低7位,為:0101100

取第2個位元組的低7位,為:0000010

我們再來看這句:最低有效組在前面

然後倒過來組合起來,即為原01串:

0000010 0101100(即十進位制的300)

PS:這裡的倒裝方式涉及到編碼方式的大小端

(3)3個位元組,我們來看看怎麼對 0110 1011 0110 0011進行編碼

a.從低位到高位,取7位為一個組(不足7位前面補0),這裡為

1100011

1010110

0000001

b.反轉組裝 1100011 1010110 0000001

c.除了在最後一個位元組補0,其他位元組補1,即為:11100011 11010110 00000001

(4)更多位元組

聰明的你應該已經發現了,用Base 128 Varint編碼的最大表示數為2^28,非常正確,同時說明了,天下沒有免費的午餐,有得必有失。但是,大家還記得前面說的那句話嗎:壓縮的依據是基於一個現實:越小的數字,越經常使用

, 所以,這個壓縮演算法,是滿足絕大部分情況的。當然,如果傳輸的數字都是比較大的特殊情況,就不推薦這種演算法了

 

PS:如何確認一個數字經過Base 128 Varint要用多少位元組的傳輸或儲存:

1個位元組的Base 128 Varint編碼後,有7位可以儲存,即可以傳輸數字為 0-2的7次方

以此類推:2個位元組是2的14次方,3個位元組為2的21次方