《C# 爬蟲破境之道》：第二境爬蟲應用 — 第三節：處理壓縮資料

續上一節內容，本節主要講解一下Web壓縮資料的處理方法。

在HTTP協議中指出，可以通過對內容壓縮來減少網路流量，從而提高網路傳輸的效能。

那麼問題來了，在HTTP中，採用的是什麼樣的壓縮格式和機制呢？

首先呢，先說壓縮格式，主要有三種：

DEFLATE，是一種使用 Lempel-Ziv 壓縮演算法（LZ77）和哈夫曼編碼的資料壓縮格式。定義於 RFC 1951 : DEFLATE Compressed Data Format Specification；
ZLIB，是一種使用 DEFLATE 的資料壓縮格式。定義於 RFC 1950 : ZLIB Compressed Data Format Specification；

GZIP，是一種使用 DEFLATE 的檔案格式。定義於 RFC 1952 : GZIP file format specification；

我們這裡就不細琢磨了，格式裡面又有演算法，又有規則什麼的，我也搞不清楚，說多了，捱罵……理解上，就相當於我們常用的Zip、7Zip、RAR等壓縮格式；

但是需要注意的是，ZLIB和GZIP都是使用的DEFLATE，這就有點兒意思了，後面再說：）

說完壓縮格式，再來說機制，分為兩條路子（請求、回覆）：

請求：在request header中指定Accept-Encoding。例如：Accept-Encoding: gzip, deflate, compress, br；Accept-Encoding在Headers中是可選的，可以不指定；當然，其中還有一些規則，後面我們結合回覆一起給出；

回覆：在response header中指定Content-Encoding。例如：Content-Encoding: gzip；Content-Encoding在Headers中也是可選的，可以不指定；不過現在大多數站點都會對內容進行壓縮，不過通常不會對圖片及視訊等已經經過壓縮的資源進行壓縮，因為得不償失啊；

來解釋一下，首先客戶端（比如說瀏覽器）發出請求，我們在使用瀏覽器的過程中，一般就只是輸入一個網址或點選某個連線，不會刻意去填寫一下Accept-Encoding，但是瀏覽器會為我們新增；這個Accept-Encoding，就是告訴網站伺服器端，我（瀏覽器）可以解釋這幾種壓縮格式（一個列表），你（網站伺服器）要是壓縮，就給我這幾種格式，否則，就不要壓縮了；網站伺服器端收到請求後，進行解析，看看有沒有自己能夠使用的壓縮格式，如果有，那麼就進行壓縮，如果有多個可以使用，那就要看優先順序，選擇優先順序最高的格式進行壓縮（後面列出規則），並將使用的壓縮格式填入Content-Encoding中傳送回客戶端；客戶端（瀏覽器）收到回覆以後，就看Content-Encoding有沒有值，如果有並且自己也認識，那麼就可以正常解壓，顯示在介面上了。

這個就是壓縮的機制了，一切看起來那麼的和諧，但在網際網路的世界，總是不缺乏“驚喜”，即使客戶端不指定任何Accept-Encoding，伺服器端也會根據情況返回Content-Encoding，這就迫使瀏覽器，還必須得有兩把刷子，否則就傻眼了。

HTTP Header中Accept-Encoding 是瀏覽器發給伺服器,宣告瀏覽器支援的編碼型別[1] 
常見的有
Accept-Encoding: compress, gzip          //支援compress 和gzip型別
Accept-Encoding:　                              //預設是identity
Accept-Encoding: *　                           //支援所有型別
Accept-Encoding: compress;q=0.5, gzip;q=1.0//按順序支援 gzip , compress
Accept-Encoding: gzip;q=1.0, identity; q=0.5, *;q=0 // 按順序支援 gzip , identity
伺服器返回的對應的型別編碼header是 content-encoding.伺服器處理accept-encoding的規則如下所示：
1. 如果伺服器可以返回定義在Accept-Encoding 中的任何一種Encoding型別, 那麼處理成功(除非q的值等於0, 等於0代表不可接受)　
2. * 代表任意一種Encoding型別 (除了在Accept-Encoding中顯示定義的型別)　
3. 如果有多個Encoding同時匹配, 按照q值順序排列　
4. identity總是可被接受的encoding型別(除非明確的標記這個型別q=0) 

如果Accept-Encoding的值是空, 那麼只有identity是會被接受的型別
如果Accept-Encoding中的所有型別伺服器都沒法返回, 那麼應該返回406錯誤給客戶端
如果request中沒有Accept-Encoding 那麼伺服器會假設所有的Encoding都是可以被接受的。
如果Accept-Encoding中有identity 那麼應該優先返回identity (除非有q值的定義,或者你認為另外一種型別是更有意義的)
注意:
如果伺服器不支援identity 並且瀏覽器沒有傳送Accept-Encoding,那麼伺服器應該傾向於使用HTTP1.0中的 "gzip" and "compress" , 伺服器可能按照客戶端型別傳送更適合的encoding型別
大部分HTTP1.0的客戶端無法處理q值

Accept-Encoding與Content-Encoding的規則

Accept-Encoding 與 Content-Encoding 的對應規則

另外，需要額外說明的是，在Accept-Encoding中指定的delfate，可不一定是DEFLATE壓縮格式，按照官方的說法：

gzip，一種由檔案壓縮程式「Gzip，GUN zip」產生的編碼格式，描述於 RFC 1952。這種編碼格式是一種具有 32 位 CRC 的 Lempel-Ziv 編碼（LZ77）；
deflate，由定義於 RFC 1950 的「ZLIB」編碼格式與 RFC 1951 中描述的「DEFLATE」壓縮機制組合而成的產物；

也就是說，deflate其實對應的應該是ZLIB壓縮格式，而它的名字，又與DEFLATE格式重名（估計這位同仁會被祭天了吧），導致很多瀏覽器廠商不知道究竟該用哪種格式來解釋Content-Encoding: deflate，因為不論你選擇哪種，都會有例外發生，這就尷尬了。所以，儘管deflate的壓縮效果要比gzip好，但還是會被不少Web-Server放棄或者降低優先順序。這也就是為什麼我們會經常看到Content-Encoding: gzip而很少能看到Content-Encoding: deflate的原因；所以，我們在做爬蟲的時候，也應該儘量避免使用deflate，減少不必要的麻煩。

話鋒一轉，回到我們的爬蟲，也會遇到上面瀏覽器遇到的尷尬場面，所以，就必須得事先準備好常用的解壓縮方式，要不然，資料抓下來了，讀不出來，你說氣不氣~

本節中，我們就來繼續改造我們的爬蟲框架，讓它也有兩把刷子：）

[Code 2.3.1]

 1 public static byte[] DecompressStreamData(Stream sourceStream, String contentEncoding)
 2 {
 3     var _stream = sourceStream;
 4     switch ((contentEncoding ?? string.Empty).ToLower())
 5     {
 6         case "gzip":
 7             _stream = new GZipStream(sourceStream, CompressionMode.Decompress);
 8             break;
 9         case "deflate":
10             _stream = new DeflateStream(sourceStream, CompressionMode.Decompress);
11             break;
12         default:
13             break;
14     }
15     using (var memory = new MemoryStream())
16     {
17         int length = 256;
18         Byte[] buffer = new Byte[length];
19         int bytesRead = _stream.Read(buffer, 0, length);
20         while (bytesRead > 0)
21         {
22             memory.Write(buffer, 0, bytesRead);
23             bytesRead = _stream.Read(buffer, 0, length);
24         }
25         return memory.ToArray();
26     }
27 }

DecompressStreamData 靜態方法

這是一個公共靜態方法，其目的就是將原資料流中的資料轉換為byte[]陣列，其中，如果指定了壓縮格式，就會使用適當的方法進行解壓。這裡只提供了最常見的gzip和不推薦的deflate兩種格式，可以自行擴充套件。

接下來，就是對工蟻（WorkerAnt）進行改造了。

[Code 2.3.2]

 1 private void GetResponse(JobContext context)
 2 {
 3     context.Request.BeginGetResponse(new AsyncCallback(acGetResponse =>
 4     {
 5         var contextGetResponse = acGetResponse.AsyncState as JobContext;
 6         using (contextGetResponse.Response = contextGetResponse.Request.EndGetResponse(acGetResponse))
 7         using (contextGetResponse.ResponseStream = contextGetResponse.Response.GetResponseStream())
 8         using (contextGetResponse.Memory = new MemoryStream())
 9         {
10             // 此處省略N行……
11 
12             if (TaskStatus.Running == contextGetResponse.JobStatus)
13             {
14                 if (!String.IsNullOrEmpty(contextGetResponse.Response.Headers["Content-Encoding"]))
15                 {
16                     contextGetResponse.Memory.Seek(0, SeekOrigin.Begin);
17                     contextGetResponse.Buffer = DecompressStreamData(contextGetResponse.Memory
18                         , contextGetResponse.Response.Headers["Content-Encoding"]);
19                     //contextGetResponse.Buffer = contextGetResponse.Memory.ToArray();
20                 }
21                 else
22                     contextGetResponse.Buffer = contextGetResponse.Memory.ToArray();
23 
24                 contextGetResponse.JobStatus = TaskStatus.RanToCompletion;
25                 NotifyStatusChanged(new JobEventArgs { Context = context, EventAnt = this, });
26             }
27 
28             contextGetResponse.Buffer = null;
29         }
30     }), context);
31 }

改造WorkerAnt的GetResponse方法

註釋中是原來使用的方法，現在用上面的DecompressStreamData替換掉了。

這樣我們在收到採集完成事件通知時，就可以得到解壓縮後的資料了：

[Code 2.3.3]

 1 switch (args.Context.JobStatus)
 2 {
 3     // 此處省略N行……
 4     case TaskStatus.RanToCompletion:
 5         if (null != args.Context.Buffer && 0 < args.Context.Buffer.Length)
 6         {
 7             Task.Factory.StartNew(oBuffer =>
 8             {
 9                 var content = new UTF8Encoding(false).GetString((byte[])oBuffer);
10                 richOutput.EndInvoke(richOutput.BeginInvoke(new MethodInvoker(() => { richOutput.Text = content; })));
11             }, args.Context.Buffer, TaskCreationOptions.LongRunning);
12         }
13         if (null != args.Context.Watch)
14             Console.WriteLine("/* ********************** using {0}ms / request  ******************** */"
15                 + Environment.NewLine + Environment.NewLine, (args.Context.Watch.Elapsed.TotalMilliseconds / 100).ToString("000.00"));
16         break;
17     // 此處省略N行……
18     default:/* Do nothing on this even. */
19         break;
20 }

改造應用中對事件的處理

至於為何在Complete事件的位置處理解壓縮，而不在Running事件的位置，這是gzip的限制，它具有CRC校驗位，CRC的演算法，大家可以在網上搜索，大體上說，就是遍歷一遍所有資料，進行與或計算，最終得到一個校驗位，來保證資料的完整性與正確性。這也導致我們無法對中間資料進行解壓，因為沒有校驗位，對末尾資料解壓，又因資料不全，CRC計算結果也不會對。

至此，我們就完成了對HTTP協議內容部分已壓縮資料的處理，拋磚引玉，可以實現更多種壓縮格式的處理；

節外生枝：

本節講述的資料壓縮，指的是HTTP協議中，對協議內容部分的壓縮，在HTTP 2.x的版本中，增加了對協議頭部的壓縮（更確切的說是快取）的機制，用空間換時間，由於2.x版本Schema為HTTPS，處理起來，另有蹊蹺，本節先不做深入介紹了，可作為延伸內容，有興趣的童鞋可以搜尋相關主題；
為了方便以後的做更多更好的案例，原始碼中增加了一個WinForm專案，這樣在切換Uri的時候，就更方便一些；

喜歡本系列叢書的朋友,可以點選連結加入QQ交流群(994761602)【C# 破境之道】
方便各位在有疑問的時候可以及時給我個反饋。同時，也算是給各位志同道合的朋友提供一個交流的平臺。
需要原始碼的童鞋，也可以在群檔案中獲取最新原始碼。

相關推薦

《C# 爬蟲破境之道》：第二境爬蟲應用 — 第三節：處理壓縮資料

續上一節內容，本節主要講解一下Web壓縮資料的處理方法。在HTTP協議中指出，可以通過對內容壓縮來減少網路流量，從而提高網路傳輸的效能。那麼問題來了，在HTTP中，採用的是什麼樣的壓縮格式和機制呢？首先呢，先說壓縮格式，主要有三種： DEFLATE，是一種使用 Lempel-Ziv 壓縮

《C# 爬蟲破境之道》：第二境爬蟲應用 — 第四節：小說網站採集

之前的章節，我們陸續的介紹了使用C#製作爬蟲的基礎知識，而且現在也應該比較瞭解如何製作一隻簡單的Web爬蟲了。本節，我們來做一個完整的爬蟲系統，將之前的零散的東西串聯起來，可以作為一個爬蟲專案運作流程的初探，但實際專案中，還需要解決其他一些問題，我們後續章節也將繼續深耕：）先來看一下解決方案的整體結構：

《C# 爬蟲破境之道》：第二境爬蟲應用 — 第五節：小總結帶來的優化與重構

在上一節中，我們完成了一個簡單的採集示例。本節呢，我們先來小結一下，這個示例可能存在的問題：沒有做異常處理沒有做反爬應對策略沒有做重試機制沒有做併發限制 …… 呃，看似平靜的表面下還是隱藏著不少殺機的…… 但本節不打算對付上述問題，而是先關注一個隱藏更深的問題，這個問題，可能會牽扯很多人（包括我☹

《C# 爬蟲破境之道》：第二境爬蟲應用 — 第六節：反爬策略研究

之前的章節也略有提及反爬策略，本節，我們就來系統的對反爬、反反爬的種種，做一個了結。從防盜鏈說起：自從論壇興起的時候，網上就有很多人會在論壇裡釋出一些很棒的文章，與當下流行的“點贊”“分享”一樣，很多人都會因為“欣賞”而選擇“轉發”到各大論壇。今時今日，我們大多數人在轉載他人文章時，還會特別註明“轉載自x

《C# 爬蟲破境之道》：第二境爬蟲應用 — 第七節：併發控制與策略

我們在第五節中提到一個問題，任務佇列增長速度太快，與之對應的採集、分析、處理速度遠遠跟不上，造成記憶體快速增長，頻寬佔用過高，CPU使用率過高，這樣是極度有害系統健康的。我們在開發採集程式的時候，總是希望能夠儘快將資料爬取下來，如果總任務數量很小（2~3K請求數之內），總耗費時長很短（1~2分鐘之內），那麼

《C# GDI+ 破境之道》：第一境 GDI+基礎 —— 第二節：畫矩形

有了上一節畫線的基礎，畫矩形的各種邊線就特別好理解了，所以，本節在矩形邊線上，就不做過多的講解了，關注一下畫“隨機矩形”的具體實現就好。與畫線相比較，畫矩形稍微複雜的一點就是在於它多了很多填充的樣式。接下來，我們就來細細品味一番。同樣，一個窗體專案，窗體的佈局風格與上一節的保持一致： 1 namesp

《ASP.NET MVC 5 破境之道》：第一境 ASP.Net MVC5項目初探 — 第二節：MVC5項目結構

工具包就會詳細講解 xpl 自動 bundles uget 成了樹形第一境 ASP.Net MVC5項目初探第一節：運行第一個MVC5項目第二節：MVC5項目結構第三節：View層簡單改造第四節：打造首頁面第二節：MVC5項目結構接下來，我們來看看，VS為我們自動創

《C# GDI+ 破境之道》：第一境 GDI+基礎 —— 第一節：畫直線

今天正式開一本新書，《C# GDI+ 破鏡之道》，同樣是破鏡之道系列叢書的一分子。關於GDI+呢，官方的解釋是這樣的： GDI+ 是 Microsoft Windows 作業系統的窗體子系統應用程式程式設計介面 (API)。 GDI+ 是負責在螢幕和印表機上顯示的資訊。顧名思義，GDI

《ASP.NET MVC 5 破境之道》：概述

概述第一節：寫作本書的目的第二節：ASP.Net MVC 概述第三節：開發環境準備第一節：寫作本書的目的　　關於筆者　　張曉亭（Mike Cheers），1982年出生，內蒙古遼闊的大草原是我的故鄉。　　沒有高學歷，沒有侃侃而談的高談闊論，擁有的就是那一份對技術的執著，對自我價值的追求。　　

《ASP.NET MVC 5 破境之道》：第一境 ASP.Net MVC5專案初探

第一境 ASP.Net MVC5專案初探第一節：執行第一個MVC5專案第二節：MVC5專案結構第三節：View層簡單改造第四節：打造首頁面第一節：執行第一個MVC5專案建立一個MVC專案，是很容易的，大部分工作，VS都幫我們完成了。只需要按照如下步驟按部就班就可以了。開啟

騰訊胡育輝：千億黑產背後的破局之道

產品線到手 IE AR 是否騰訊騰訊安全你是手機號歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~ 背景：5月23-24日，以“煥啟”為主題的騰訊“雲+未來”峰會再廣州召開，廣東省各級政府機構領導、海內外業內學術專家、合作夥伴及行業大咖悉數到場，共話

敏捷史話（八）：敏捷的破局之道——Martin Fowler

在 Martin Fowler 的世界裡，任何事情都有最優解。 1963年，Martin 出生於英格蘭的沃爾索爾（Walsall），也在同樣位於沃爾索爾的瑪麗女王文法學校中接受中等教育。在這裡的鄉村中，他度過了一段簡單、愉快的少年時光。上了中學之後，Martin 接觸到了策略桌遊。在桌遊的“廝殺”中，&nbs

2017計蒜之道初賽第二場百度的科學計算器（簡單）

line ret ext while () value nan pytho sca /** 題目：2017計蒜之道初賽第二場百度的科學計算器（簡單）鏈接：https://nanti.jisuanke.com/t/15504 題意：給一個合法的表達式，包含加號+

2018 計蒜之道初賽第二場

c11 cpp std DC tdi 字典樹 AR clu scan 簽到完看到C沒什麽人過就溜樂。 A.淘寶的推薦系統直接DP，時間復雜度$O(∑nd)$ #include <bits/stdc++.h> using namespac

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十三節 Spark SQL之SQLContext（一)

作者：周志湖 1. SQLContext的建立 SQLContext是Spark SQL進行結構化資料處理的入口，可以通過它進行DataFrame的建立及SQL的執行，其建立方式如下： //sc為SparkContext val sqlContext

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十二節 Spark SQL 處理流程分析

作者：周志湖下面的程式碼演示了通過Case Class進行表Schema定義的例子： // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLConte

Spark修煉之道（高階篇）——Spark原始碼閱讀：第八節 Task執行

Task執行在上一節中，我們提到在Driver端CoarseGrainedSchedulerBackend中的launchTasks方法向Worker節點中的Executor傳送啟動任務命令，該命令的接收者是CoarseGrainedExecutorBack

Spark修煉之道（高階篇）——Spark原始碼閱讀：第一節 Spark應用程式提交流程

作者：搖擺少年夢微訊號： zhouzhihubeyond spark-submit 指令碼應用程式提交流程在執行Spar應用程式時，會將spark應用程式打包後使用spark-submit指令碼提交到Spark中執行，執行提交命令如下： root@s

那些年，我爬過的北科(四)——爬蟲進階之極簡併行爬蟲框架開發

寫在前面在看過目錄之後，讀者可能會問為什麼這個教程沒有講一個框架，比如說scrapy或者pyspider。在這裡，我認為理解爬蟲的原理更加重要，而不是學習一個框架。爬蟲說到底就是HTTP請求，與語言無關，與框架也無關。在本節，我們將用26行程式碼開發一個簡單的併發的（甚至分散式的）爬蟲框架。爬蟲的

PythonNLP學習進階：第二章練習題（Python自然語言處理）

python自然語言處理.2014年7月第一版課後習題練習 1. >>> phrase=["Valentine's"] >>> phrase=["lonely"]+phrase+["day"] >>> phrase [

《C# 爬蟲 破境之道》：第二境 爬蟲應用 — 第三節：處理壓縮資料

相關推薦

《C# 爬蟲破境之道》：第二境爬蟲應用 — 第三節：處理壓縮資料