Gzip壓縮資料解壓

阿新 • • 發佈：2019-01-11

在進行微博資料解析的過程中，遇到了gzip格式的壓縮資料，要從這些資料中得到微博資訊就首先需要對gzip資料進行解壓。

重組後的微博TCP會話中的壓縮資料：

從上圖可以看出，gzip資料的開始是從兩個換行“\r\n”開始的，即從“65c”這行資料後邊開始的，是以“0”這一行結束的。”65c“表示的是其下面那段壓縮資料的長度；上圖中gzip資料僅分了65c這麼長的一段，而某次壓縮的資料可能分多個段，那麼每段資料均以類似"65c"這麼一個表示長度的值開始，後跟本段壓縮資料。

下面這個函式是將一段一段的壓縮gzip資料進行合併：

//第一個引數是待處理的http資料，第二個引數是資料的長度
//該函式處理重組後的http資料中的gzip壓縮資料：
//gzip資料是以一個或多個chunked的形式存在的，該函式將提取，合併並解壓出所有chunk的資料(解壓
//出的gzip資料是是json格式的，函式返回的解壓內容，在後續處理中會提取出json的“html”欄位，進一步得到微博id)
void ProcessGzipData(char *source, int len, char *decompression) {
	char result_gzip[65530];
	char pattern[] = "\r\n\r\n";
	int begin_pos = KmpSearch(source, len, pattern) + strlen(pattern);
	if (begin_pos == -1)   
		return;
	int offset = 0;
	int gzip_len = 0;
	while (memcmp(source + begin_pos + offset, "0\r\n", 3) != 0) {
		char pattern2[] = "\r\n";
		int len1 = KmpSearch(source + begin_pos + offset, len - begin_pos - offset, pattern2);
		if (len1 == -1)   //壓縮資料出錯，返回
			break;
		char temp1[10] = {'\0'};
		memcpy(temp1, source + begin_pos + offset, len1);
		offset += (len1 + strlen("\r\n"));
		int len2 = KmpSearch(source + begin_pos + offset, len - begin_pos - offset, pattern2);
		memmove(result_gzip + gzip_len, source + begin_pos + offset, len2);
		gzip_len += len2;
		offset += (len2 + strlen("\r\n"));
	}
/*
	fstream myfile("/home/yang/test/zlib.file", fstream::in | fstream::out | fstream::app);
	if (!myfile)
		cout << "open file error" << endl;
	
	int i;
	cout << "gzip len: " << gzip_len << endl;
	for (i = 0; i < gzip_len; ++i)
		myfile << result_gzip[i];
	myfile.close();
*/
	DecompressGzip(result_gzip, gzip_len + 1000,  decompression);  //呼叫下面的函式對合並的gzip資料解壓
}

解壓gzip資料的程式碼如下：

//該函式解壓gzip資料
//引數：source是指向待解壓資料的指標；len是待解壓資料的長度；destination用於存放解壓後的資料
int DecompressGzip(char *source, int len, char *destination) {
	int result, have;
	int offset = 0;
	z_stream d_stream;

	unsigned char compression[SEGMENT_SIZE] = {'\0'}, decompression[SEGMENT_SIZE] = {'\0'};
	memcpy(compression, (Byte*)source, len);
	unsigned int compression_len = len, decompression_len = SEGMENT_SIZE * 4;
	strcpy((char*)decompression, "garbage");
	d_stream.zalloc = Z_NULL;
	d_stream.zfree = Z_NULL;
	d_stream.opaque = Z_NULL;
	d_stream.next_in = Z_NULL;
	d_stream.avail_in = 0;

	result = inflateInit2(&d_stream, 47);
	if (result != Z_OK) {
		printf("inflateInit2 error: %d\n", result);	
		return result;
	}

	d_stream.next_in = compression;
	d_stream.avail_in = compression_len;

	do {
		d_stream.next_out = decompression;
		d_stream.avail_out = SEGMENT_SIZE;
		result = inflate(&d_stream, Z_NO_FLUSH);

		assert(result != Z_STREAM_ERROR);

		switch (result) {
		case Z_NEED_DICT:
			result = Z_DATA_ERROR;
		case Z_DATA_ERROR:
		case Z_MEM_ERROR:
			(void)inflateEnd(&d_stream);
			return result;	
		}
		have = SEGMENT_SIZE - d_stream.avail_out;
		memcpy(destination + offset, decompression, have);

		offset += have;
	} while (d_stream.avail_out == 0);

	inflateEnd(&d_stream);
	memcpy(destination + offset, "\0", 1);
	return result;
}

參考：

Gzip壓縮資料解壓

在進行微博資料解析的過程中，遇到了gzip格式的壓縮資料，要從這些資料中得到微博資訊就首先需要對gzip資料進行解壓。重組後的微博TCP會話中的壓縮資料：從上圖可以看出，gzip資料的開始是從兩個換行“\r\n”開始的，即從“65c”這行資料後邊開始的，是以“0”

Linux下使用gzip壓縮與解壓檔案

Linux下gzip命令是用來壓縮檔案的。gzip不僅可以用來壓縮大的、較少使用的檔案以節省磁碟空間，還可以和tar命令一起構成Linux作業系統中比較流行的壓縮檔案格式。據統計，gzip命令對文字檔案有60%～70%的壓縮率。 gzip命令的格式是： gzip [option] [file] gz

Python Gzip壓縮與解壓模組

Python Gzip模組為GNU zip檔案提供了一個類檔案的介面，它使用zlib來壓縮和解壓縮資料檔案，讀寫gzip檔案。首先，我們來看一下壓縮與解壓的程式碼：一、使用gzip模組壓縮檔案 >>> import gzip #匯入python

GZIP壓縮與解壓

public class GZIP { /** * 字串的壓縮 * * @param str * 待壓縮的字串 * @return 返回壓縮後的字串 * @throws IOException

字串gzip壓縮、解壓

package org.jc.plugins.gzip; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.IOException; impo

大資料Linux命令之檔案檢視大小、系統情況命令、壓縮與解壓

一、實時檢視檔案內容 Linux 中有一個tail命令，常用來顯示一個檔案的最後n行文件內容但更多情況下，我們要在伺服器端執行程式，並且需要實時監控執行日誌，這時候有什麼辦法實時滾動顯示log檔案內容？這裡可以利用tail命令加引數f實現：tail用於顯示指

java實現對zip、tar、gzip(gz)的壓縮與解壓

以下是一個工具類： import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.File; import java.io.FileInputStream;

Linux：03---Terminal高階命令(檔案的壓縮與解壓)：gzip、bzip2、tar

提示： gzip、bzip2：只能用於單個檔案的壓縮與解壓，不能壓縮或者解壓目錄 tar可用於多個檔案的壓縮與解壓一般情況下：小檔案的壓縮用gzip，大檔案的壓縮用bzip2 一、gzip 1.概念：對字尾為.gz的檔案進行壓縮或者解壓

利用zlib庫對HTTP收到的gzip資料解壓

1、首先說為什麼採用zlib解壓，因為zlib可以解壓記憶體資料。 2、下載zlib庫後，自己在projcts目錄裡面根據需要編譯lib庫 3、靜態連結只需要zlib.h ;zconf.h;zlib.lib三個檔案即可(動態的不介紹了) 4、解壓函式：

【C/C++】C實現gzip格式的壓縮與解壓Demo

參考連結: http://www.codeproject.com/Questions/341319/C-Decompress-Gzipped-http-response http://www.cppblog.com/woaidongmao/archive/2011/06/

linux下備份壓縮，解壓資料夾，資料庫；

1.壓縮檔案用xshell 等命令工具，到所要備份的的目錄下，然後， tar zcvf wenjianjia.tar.gz files 注：紅色字型可以隨意修改名字，藍色字型是要備份的資料夾名稱命令裡面是有空格的，還有英文句號. 2

C# 壓縮、解壓資料夾或檔案(帶密碼)

今天梳理一下專案中用到的壓縮、解壓資料夾或檔案的方法，發現因為需求不同，已經用了好幾個不同元件。今天就好好整理記錄下，別下次遇到需求又重頭開始了。 #### DotNetZip DotNetZip是一個開源的免費類庫，主要提供了快速操作zip檔案的工具集，VB、C#任何.Net語言都可以通過它建立、解壓縮z

指令篇：文件與文件系統的壓縮與解壓與打包(歸檔)與解壓___gzip、zcat；bzip2、bzcat；zip； tar

roo 壓縮命令過時 bsp 演示組合 localhost 打包 mov 一、文件與文件系統的壓縮：　　1、單文件的四種壓縮命令：　　　　①、Compress　　（過時了，不做過多說明）　　　　②、gzip,zcat　　（gzip：壓縮。zcat：查看）　　　

常用壓縮與解壓工具使用

tar zip gzip 1、tar打包tar -cvf a.tar a.txt or a/-v 查看詳情打包後gzip壓縮tar -zcvf a.tar.gz a.txt or a/打包後bzip2壓縮tar -jcvf a.tar.bz2 a.txt or a/解壓打的包tar -xf a.t

linux中常用的壓縮、解壓命令詳解

壓縮不管在windows中還是在linux中，我們會經常看到各種壓縮的文件，此刻我們需要使用就得解壓，在這就介紹介紹linux中解壓、壓縮的命令。在做實驗之前，我們先創建幾個文件，大小都是100M，方便我們更能清晰理解。一、compress【選項】file（不是太常用，而且tab鍵還不能補齊）

VB6解壓GZIP和C#解壓GZIP

sin 返回 ole 數據集 eat write byte ont tin VB進行GZIP解壓的,DLL是系統的,如果沒有點擊這裏下載 1 Option Explicit 2 ‘GZIP API 3 ‘-------------------------------

（6）壓縮、解壓

文件的指令包名 pan 壓縮 1.5 建立 style -- tar：　　-c　　建立一個壓縮文件的參數指令　　-x　　解開一個壓縮文件的參數指令　　-f　　使用檔名，在後面接文檔名，不加參數　　-t　　查看壓縮文件裏的文件　 -z　　表示壓縮格式為.ta

PHP GZ壓縮與解壓

code fwrite name bsp time style write fclose log 1 /*將字符串添加至GZ文件*/ 2 function gz_str($str,$gz_name){ 3 $fp = gzopen ($gz_name, ‘w

壓縮，解壓命令

大小壓縮包 option str tdm 命令參數順序 fig 壓縮 1.Linux壓縮包 *.tar 打包，不壓縮 *.tar.gz 打包並壓縮文件的大小 2.壓縮命令（參數順序不變） tar -zcvf options: 　　-z ：　　-c：　　-v

壓縮及解壓命令

anaconda bzip2 文件類型 cfg lis log type -s tmp *.tar 文件類型打包： tar cvf tmp.tar /tmp #將目錄打包成一個文件解包： tar xvf tmp.tar *.tar.gz

Gzip壓縮資料解壓

相關推薦