壓縮演算法gorilla paper encoding原理

阿新 • • 發佈：2018-11-28

引：

IEEE754

引：

從之前研究TSM檔案格式，發現float型別的value是以facebook的gorilla paper encoding的演算法進行壓縮。

當時沒有去深究，現在把這個演算法的詳細邏輯給理出來.

這個演算法是float的壓縮，首先得清楚float的在記憶體中是如何儲存的。

IEEE754

浮點數簡述

以64位float為例，下文float都是指64位float

IEEE754規定了float在記憶體中的儲存方法，以 num * 2^n 來描述(num為二進位制的1.xxxxx )

符號位顧名思義，正數為0，負數為1

指數位是 n + （2^10 - 1）也就是 n+1023

尾數位就是 num 小數點後面的所有值了。

舉例

以數字 2300為例。

其二進位制為：100011111100

轉化成指數形式：1.00011111100*2^11

指數位就是 11+1023 = 1034，二進位制：10000001010，（指數位基準為1023）

尾數位：取小數點後面的值 00011111100

剩下的尾數位補0，湊成一共64位

結果：010000001010‬0001111110000000000000000000000000000000000000000000

轉換成16進位制：‭40A1F80000000000‬

由此可知，float在記憶體中的儲存形式。可以看出來，有效數字普遍靠前。

演算法原理

工作流程

gorilla paper encoding就是針對這些8位元組的float進行壓縮的。

這個壓縮過程其實就是一個位元組流（位流）按照一定格式的不斷追加。

詳細流程如下

第一個位元組置為 0x10, 代表這個演算法名字

接著寫入第一個數，無壓縮，8位元組。

寫入一個數流程圖（從第二個數開始）

在所有數都新增完之後，再新增一個結束的數字

0x7FF8000000000001， not-a-number，代表結束符

最後補全一些位0，使得位元組流完整。

壓縮結構

從流程圖可知，新增一個數就有三種情況：

從第一個數開始是一個完整的8 bytes數，後面的所有樹存的都是與上一個數異或得到的delta值。

簡要分析

存delta值有什麼好處？

1. 通過delta值也很容易求出實際值

delta = A^B

那麼 B = delta^B

2. 相近的數字(這個相近其實很寬)，異或的delta值前導0 和後導0 數量會很多，也就是有效位會很少，提高壓縮率

舉例：

2300 ， float型別表示為 40A1F80000000000‬

10000， float型別表示為 40C3880000000000‬

這兩個數字異或delta = 0062700000000000

二進位制‭0000000001100010011100000000000000000000000000000000000000000000‬

前導0， 9個；後導0， 44個。有效位數，11。

壓縮率測試

寫入800個整數，以浮點數形式壓縮，實測結果如下：

原始資料型別	數量	資料規律	原始資料size	壓縮後資料size	壓縮率
INT	800	隨機數0~100000	3200 bytes	2156 bytes	67%
INT	800	隨機數1000~10000	3200 bytes	1816 bytes	57%
INT	800	起始為10000 每次遞增0~500隨機數	3200 bytes	1793 bytes	56%

小結：

這篇描述了gorilla paper encoding的演算法邏輯，回頭看來很簡單，一開始從decode程式碼開始看就很難懂，後來從encode的部分開始看，就通俗易懂了。

有時間的話，自己實現這個壓縮演算法，做一些資料測試，看看壓縮率根據資料的特點最高最低能怎樣。

壓縮演算法gorilla paper encoding原理

目錄引： IEEE754 浮點數簡述舉例演算法原理工作流程壓縮結構簡要分析壓縮率測試小結：引：從之前研究TSM檔案格式，發現float型別的value是以facebook的gorilla paper encoding的演算法進行

C#短網址壓縮演算法與短網址原理入門

C#如何實現url短地址？ c# url短地址壓縮演算法與短網址原理的例子，詳細介紹了短網址的對映演算法，將長網址md5生成32位簽名串，分為4段，每段8個位元組，然後生成短網址，具體見文字例項。短網址對映演算法：將長網址md5生成32位簽名串，分為4

atitit 解決教學記憶問題壓縮演算法原理哈夫曼 LZ77 gzip zlib deflate演算法.docx 目錄 1. 壓縮理論 1 1.1. 柯氏複雜性 1 2. 1 RLE 1

atitit 解決教學記憶問題壓縮演算法原理哈夫曼 LZ77 gzip zlib deflate演算法.docx 目錄 1. 壓縮理論 1 1.1. 柯氏複雜性

幾種壓縮演算法原理介紹

1 RLE RLE 又叫 Run Length Encoding ，是一個針對無失真壓縮的非常簡單的演算法。它用重複位元組和重複的次數來簡單描述來代替重複的位元組。儘管簡單並且對於通常的壓縮非常低效，但它有的時候卻非常有用（例如， JPEG 就使用它）。 1.1 原理圖

（轉）gzib等壓縮演算法原理詳解

gzip 、zlib以及圖形格式png，使用的壓縮演算法都是deflate演算法。從gzip的原始碼中，我們瞭解到了defalte演算法的原理和實現。我閱讀的gzip版本為 gzip-1.2.4。下面我們將要對deflate演算法做一個分析和說明。首先簡單介紹一下基本原理，然後詳細的介紹實現。 1 gz

幾種壓縮演算法實現原理詳解

gzip 、zlib以及圖形格式png，使用的壓縮演算法都是deflate演算法。從gzip的原始碼中，我們瞭解到了defalte演算法的原理和實現。我閱讀的gzip版本為 gzip-1.2.4。下面我們將要對deflate演算法做一個分析和說明。首先簡單介紹一下基本原理，

幾種主流貼圖壓縮演算法的實現原理詳解

ETC壓縮演算法採用將影象中的chromatic和luminance分開儲存的方式，而在解碼時使用luminance對chromatic進行調製進而重現原始影象資訊。 ETC也主要有兩種方法：ETC1和改進後的ETC2。 ETC1: 採用4x2的block進行分割（原始為4*2*24=192，壓

URL短地址壓縮演算法微博短地址原理解析（Java實現）

最近，專案中需要用到短網址（ShortUrl）的演算法，於是在網上搜索一番，發現有C#的演算法，有.Net的演算法，有PHP的演算法，就是沒有找到Java版的短網址（ShortUrl）的演算法，很是鬱悶。同時還發現有不少網友在發帖求助，怎麼實現Java版的短網址

視訊壓縮的基本原理，一些常見壓縮演算法的概念

對於演算法研究而言，本身就是要先知道哪個地方可以努力，哪些地方行不通。這些原理，就是指明方向的。一.視訊壓縮的可行性 1.空間冗餘一幅靜態影象，比如人臉。背景，人臉，頭髮等處的亮度，顏色，都是平緩變化的。相鄰的畫素和色度訊號值比較接近。具有強相關性，如果直接用取

LZW資料壓縮演算法的原理分析

我希望通過本文的介紹，能給那些目前不太瞭解lzw演算法和該演算法在gif影象中應用，但渴望瞭解它的人一些啟發和幫助拋磚引玉而已，更希望園子裡面兄弟提出寶貴的意見1.LZW的全稱是什麼? .2. LZW的簡介和壓縮原理是什麼？ LZW壓縮演算法是一種新穎的壓縮方法，由Lemple-Ziv-Welch

【數據壓縮】JPEG標準與原理解析

round 高頻切割基於大小 image 生成 p s pan 轉載請註明出處：http://blog.csdn.net/luoshixian099/article/details/50392230 CSDN-勿在浮沙築高臺為了滿足不同應用的需求，J

kmeans圖片壓縮演算法

1. 用K-means算做圖片壓縮讀取一張示例圖片或自己準備的圖片，觀察圖片存放資料特點。根據圖片的解析度，可適當降低解析度。再用k均值聚類演算法，將圖片中所有的顏色值做聚類。然後用聚類中心的顏色代替原來的顏色值。形成新的圖片。觀察原始圖片與新圖片所佔用記憶體的大小。將原始圖片與新

實現簡易字串壓縮演算法：由字母a-z或者A-Z組成，將其中連續出現2次以上（含2次）的字母轉換為字母和出現次數，

@Test public void test1(){ String content1 = "AAAAAAAAAAAAAAAAAAAAAAAAttBffgfaaddddddsCDaaaBBBBdddfdsgggggg"; String result = yasuo(content1);

3GPP2 EVRC 以及語音壓縮演算法

3GPP2官方網站 http://www.3gpp2.org/ 其中 specifications （翻譯：模板、規範）就是我們要找的文件點選進入：其中協議分為6類：我們要找的EVRC 在C類，選擇C類進入：關於語音演算法的另一個網

深入解析資料壓縮演算法

1、為什麼要做資料壓縮？資料壓縮的主要目的還是減少資料傳輸或者轉移過程中的資料量。 2、什麼是資料壓縮？ &nb

LZ4壓縮演算法分析

LZ4壓縮演算法是LZ算法系列中的一種，而且網上也號稱是目前最快的壓縮演算法之一，現沒時間親測也不對LZ系列演算法展開討論只分析LZ4。LZ4演算法有兩種壓縮方法，一種側重於壓縮速度，另一種側重於壓縮比，現討論的是側重於壓縮速度的方法。現給定字串dfabcdefghijklmnabcdkkkk

二進位制壓縮 - 演算法

二進位制壓縮在程式設計時遇到每個資料只有兩種狀態，且 dfs 或者 bfs 時遍歷時間複雜度高時，可以採用二進位制壓縮資料，尤其是二維陣列。 1.二進位制壓縮一個二位陣列例如： -+-- ---- ---- -+-- 正常儲存資料回使用二位陣列，'+' -> 1,'

【圖文詳細】HDFS面試題：hdfs 的資料壓縮演算法？

(1) Gzip 壓縮優點：壓縮率比較高，而且壓縮/解壓速度也比較快； hadoop 本身支援，在應用中處理gzip 格式的檔案就和直接處理文字一樣；大部分 linux 系統都自帶 gzip 命令，使用方便. 缺點：不支援 split。應用場景：當每個檔案壓縮之後在 130M

常見的無失真壓縮演算法

無失真壓縮演算法 LZ77 演算法 LZ77 演算法的關鍵是搜尋，即在已經處理過的符號序列（資料流）中，尋找與待編碼符號序列相同的模式，如果找到匹配的模式，就設法對這個模式進行索引，也就是生成一個指標，然後輸出該索引即可。LZ77 演算法巧妙地實現了這個處理。為了幫助讀者理解演算法原理，我們用圖 5-8

演算法：列隊的原理、使用及案例

Queue 是資料集合，僅允許在列表的一端插入，另一端刪除性質：先進先出程式碼實現 class Queue: def __init__(self, size=100): self.queue = [0 for _ in ra

壓縮演算法gorilla paper encoding原理

引：

IEEE754

浮點數簡述

舉例

演算法原理

工作流程

壓縮結構

簡要分析

壓縮率測試

小結：

相關推薦