使用zlib庫函式實現http報文的解壓

阿新 • • 發佈：2019-02-16

最近做專案的時候遇到了一個問題，那就是需要獲得http響應報文主體內容，一般響應主體會通過gzip格式進行壓縮，本文就是針對這種情況所寫的，可以進行記憶體解壓，而不需要儲存至本地檔案再解壓。至於chunked分塊傳輸方式要先進行報文重組再進行解壓，本文暫不考慮。

下圖是我抓取的一個http資料包，由Content-Encoding:gzip\r\n知該報文經過了gzip壓縮，而壓縮後的長度可以根據Content_Length=:785\r\n知為785位元組，即輸入引數len。壓縮後的報文儲存在哪裡呢？？我們可以查詢“\r\n\r\n"這個字串，壓縮後的報文部分就儲存在其接下來的記憶體地址之中，即輸入引數source指標。

下面直接上程式碼：

#define MY_BUFF_SIZE = 1024
int ungzip(char* source,int len,char*des)//des為解壓之後的內容要儲存的地方
{
	int ret,have;
	int offset=0;
	void * buff = source;
	z_stream d_stream;
	char uncompr[MY_BUFF_SIZE]={0};//
	d_stream.zalloc = Z_NULL;
	d_stream.zfree = Z_NULL;
	d_stream.opaque = Z_NULL;
	d_stream.next_in = Z_NULL;//inflateInit和inflateInit2都必須初始化next_in和avail_in
	d_stream.avail_in = 0;//deflateInit和deflateInit2則不用
	
	ret = inflateInit2(&d_stream,47);//這裡一定要用inflateInit2（）函式進行初始化，其他的不行，我試過貌似第二個引數為31也可以，可以按照自己情況選擇
	d_stream.next_in= buff;//下一個要解壓的位元組
	d_stream.avail_in= len;//還有多少位元組需要解壓

	do//本處含義為：開始解壓，每迴圈一次代表解壓出了1024個位元組（可能只解壓了幾百個位元組）。並將解壓出的內容快取到uncompr中，然後賦值給des；
	{
	 bzero(uncompr, MY_BUFF_SIZE);
	 d_stream.next_out=(Bytef *)uncompr;
	 d_stream.avail_out=MY_BUFF_SIZE;

	 ret = inflate(&d_stream,Z_NO_FLUSH);//這裡就是解壓函式
	 assert(ret != Z_STREAM_ERROR);
	 if (ret != Z_OK && ret != Z_STREAM_END)//解壓正常返回Z_OK,解壓結束返回Z_STREAM_END,
     {
       printf("\ninflate ret = %d\n", ret);//可能出現ret=-3，即Z_DATA_ERROR,這可能是因為資料格式不對；還有其他錯誤，暫時沒碰到
       break;
     }

	 have=MY_BUFF_SIZE-d_stream.avail_out;//這裡是將uncompr賦值給des
	 memcpy(des+offset,uncompr,have);
	 offset+=have;
	}while(d_stream.avail_out==0);//結束迴圈條件，當最後一次迴圈時，解壓出的位元組一般不到1024位元組，所以d_stream.avail_out！=0，即還有可用位元組。
	inflateEnd(&d_stream);
	memcpy(des+offset,"\0",1);//\0表示結束
	return ret;
}

對上面的資料包用上面的程式可以解壓正常不報錯！！

但上面程式碼中有一個不對的地方，那就是len的取值，這裡說的是取Content_Length=:785\r\n後的785，但是當此數字比較大時會導致解壓報錯ret=-3，即資料格式出錯，這是因為資料包再網路中傳輸時有最大傳輸長度，我們知道MTU=1560位元組（我記得是這個），而tcp協議再三次握手時會協商最大接受長度MSS，該值預設為560多，具體數字我忘了，最大為1460。這意味著什麼呢？我抓得另一個數據包Content_Length=:38188\r\n，但是當我除錯時發現source指標在1049位元組（這個數字沒有意義，只不過是1460-響應報文首部長度）後就沒有任何內容了，這時用上面的函式解壓時當這1049個位元組解壓完之後必然會報ret=-3的錯，因為這之後都是空，顯然不符合gzip壓縮格式。所以要想不報錯len值應該取Content_Length和MSS（握手協商出來的）的較小者！！！！這樣解壓正確，但只解壓了網頁的一部分，對吧。要想全部解壓就要把其他的包也找到並解壓。這和chunked並不一樣，chunked是先重組在解壓，而這裡是先解壓在組合。因為我做的專案裡面我需要的內容就在第一個包裡，所以這部分沒有做，希望感興趣的同學可以補充上～～

好了，我的第一篇部落格就先寫到這裡吧。

使用zlib庫函式實現http報文的解壓

使用zlib庫函式實現http報文的解壓

Linux下使用zlib實現資料壓縮解壓

java實現壓縮、解壓

Java實現壓縮與解壓

常見string.h庫函式實現及 string類實現

Huffman編碼實現壓縮、解壓檔案

openresty lua zlib整合安裝讓lua支援解壓服務端壓縮過的資料

matlab 高斯模糊非庫函式實現方式

C#實現Zip壓縮解壓實例

使用zlib開源庫的uncompress函式解壓時出現記憶體崩潰問題及error LNK2026: 模組對於 SAFESEH 映像是不安全的問題

利用zlib庫對HTTP收到的gzip資料解壓

Qt實現zip壓縮和解壓，編譯、呼叫zlib和QuaZip動態庫過程詳解

使用zlib庫解壓*.zip檔案

使用libjpeg-turbo庫中的TurboJPEG API實現圖片解壓，縮放及壓縮功能

http報文中chunked分塊編碼傳輸格式分析及c語言解壓實現

zlib庫記憶體壓縮解壓縮函式的C++便利性封裝

ZLIB.DLL中BLOB變數壓縮與解壓函式的使用方法

Python調用7zip命令實現解壓

python解壓，壓縮，以及存數據庫的相關操作

C#實現多級子目錄Zip壓縮解壓實例

使用zlib庫函式實現http報文的解壓

相關推薦