1. 程式人生 > >【1】爬蟲概述

【1】爬蟲概述

1. 目錄清單

  1. 爬蟲簡介
  2. 通用爬蟲和聚焦爬蟲
  3. 網路請求那些事兒
  4. 網路資料抓包分析

2. 章節內容

2.1.爬蟲簡介

在各行各業如火如荼快速發展的今天,市場是決定一家公司是否可持續發展最重要的一個衡量指標,市場的定位和發展核心是對行業資料的分析,對於資料的分析必須進行大量資料的統計分析才能得到一個比較中肯的處理建議,那麼問題就來了~分析市場的行業資料,從哪裡才能得到呢?

當資料開始變得敏感開始變得值錢起來(一直都很值錢)之後,很多官方或者民間的機構,開始就資料市場展開了新一輪的競爭,如官方會提供各種資料的統計資訊方便大家瞭解目前的民生情況,百度提供了搜尋引擎資料方便上網的時候進行的快速檢索,騰訊指數提供了對於時下流行關鍵詞的指數分析方便對於某些資料的統計資訊的提取等等,總的來說~資料提供者一般都提供兩種資料,一種可以共享的免費資料,一種比較有針對性的私密資料;免費資料可以供所有人檢視,但是私密資料在一定程度上可以選擇收費查閱或者直接禁止查閱,目前對於資料的來源一把都有如下方式:

  1. 企業分析資料,如百度指數、騰訊指數、阿里指數等等
  2. 資料平臺數據,如資料堂,國雲資料市場等等
  3. 政府機構資料,如納斯達克指數、國家統計局資料等等
  4. 資料諮詢公司,如艾瑞諮詢等等
  5. 網路爬蟲採集

問題1:並不是所有的公司都可以付費購買資料

問題2:並不是所有的公司都滿足於免費的資料?!

問題3:那麼資料從哪裡來?

網路爬蟲 ,主要是針對網路上的資料通過程式設計的方式使用程式自動採集的一種手段,公司除了從第三方平臺直接使用免費資料或者購買資料之外,更多的是通過網路爬蟲的方式讓爬蟲工程師負責採集公司所需要的資料!這也是為什麼爬蟲工程師非常吃香的原因!

2.2. 通用爬蟲和聚焦爬蟲

一般情況下,根據爬蟲程式的應用場景的不同,可以將爬蟲程式大致分為兩種型別:通用爬蟲和聚焦爬蟲

通用爬蟲:通用爬蟲是網路搜尋引擎的一部分,遵循爬蟲的robot協議,負責採集網路中的網頁資訊內容並建立索引,在自己的搜尋引擎伺服器上建議網路資訊的索引映象備份檔案,達到對網路上的資訊內容可以快速檢索的目的

robot協議:是關於網路爬蟲的一種約定的協議,robot協議明確告訴了通用網路爬蟲,哪些資料內容是可以爬取的,哪些資料內容是不允許爬蟲採集的,如果是合法合規的爬蟲程式,必須遵循robot協議約定的採集內容區域,否則可能涉及到維權行為!

通用爬蟲在一定程度上滿足了大量網民的需求,可以通過搜尋引擎快速檢索需要的網頁

但是公司針對性的獲取資料的場景,通用爬蟲就存在了很大的限制,如通用爬蟲獲取的網頁資料對於公司的需求來說很大一部分是無效的,因為對於分析資料來說網頁中的廣告資訊、輪播圖片資訊、導航資訊等等都是無效資料;公司不同的需求需要採集的資料形式也是多樣的,通用搜索引擎的常規操作方式並不能完全滿足這樣的操作現狀的;尤其是針對有特定語義化搜尋的資料來說,通用搜索引擎更是無能為力的的!

聚焦爬蟲: 聚焦爬蟲是通過程式設計的方式針對特定的需要進行資料定向採集的一種手段,能更好的更加準確的採集使用者需要的資料,在一定程式上能很好的滿足業務資料需要。缺點在於聚焦爬蟲的編碼工作比較繁瑣,針對不同型別的資料採集工作,需要定製化的開發不同的程式程式碼。然而~瑕不掩瑜的是,定向爬蟲由於其特定收的採集手段,尤其是程式開發人員對於問題處理的操作方式愈發先進和自動化,聚焦爬蟲更加受到公司的歡迎!

2.3. 網路請求那些事兒

網路中的資料,更多的操作是對於目標伺服器上的網頁資料的方式,網頁資料的訪問一般使用的都是HTTP和HTTPS協議;通過瀏覽器進行網頁訪問的過程中,在請求的請求頭資訊中包含了客戶端瀏覽器的身份資訊;在響應資料中包含了對於響應內容的描述資訊等

2.3.1.HTTP和HTTPS協議

HTTP協議是超文字傳輸協議,是網頁訪問過程中最常用的一種協議,用於傳輸超文字標籤描述的資料內容。預設訪問埠:80

HTTPS協議是提供了安全通道的HTTP協議,在網頁資料訪問過程中,對於訪問的資料進行了數字簽名實現了非對稱的資料加密方式以保障資料的安全性。預設訪問埠:443

在指定的訪問協議寫,進行資料資源的訪問,通過網路統一資源定位符URL進行訪問,一般情況下,一個完整的請求URL主要包含如下幾個部分:

http://www.baidu.com/s?wd=url

2.3.2.請求方式

HTTP1.1協議標準規定了8中常規請求方式,分別如下:

  • GET:定義用於從伺服器獲取資料
  • POST:定義用於向伺服器更新資料
  • PUT:定義用於向伺服器提交資料
  • DELETE:定義用於在伺服器中刪除指定資料
  • OPTIONS:定義客戶端可以通過請求查詢伺服器處理資訊
  • HEAD:定義用於獲取請求內容的報文頭資訊
  • CONNECT:定義可以通過管道的方式連線
  • TRACE:定義心跳訊息診斷的實現

常規的web專案中,在實際使用操作時我們一般使用get/post兩種請求操作方式,通過get/post兩種請求方式完成和伺服器之間的常規資料互動已經可以滿足我們專案的大部分情況

  • GET請求:訪問的url地址中可以包含傳遞給伺服器的引數,引數必須是字串,url地址的長度瀏覽器本身沒有限制,但是受到伺服器最大接收資料長度的限制,所以get請求一般用於傳輸不需要保密的長度收到限制的字串資料。處理效率較高
  • POST請求:訪問的url地址中不會出現傳遞給伺服器的引數,引數會包含在請求體中進行處理,主要傳遞字串資料,可以傳遞二進位制資料,傳遞資料的大小瀏覽器同樣沒有做什麼限制,但是伺服器端會根據實際需要進行資料量的限制,避免傳遞過大的資料到底伺服器資源不夠使用!所以post請求一般用於傳遞較為敏感的不能暴露給別人看到的並且資料較大的資料。

隨著web軟體的發展,除了常規的請求操作方式之外,新的請求處理方式RESTful風格也逐步的在很多軟體中開始應用,在RESTful處理風格中,經常使用如下四種請求方式:

  • GET: 用於從伺服器中獲取資料
  • POST:用於在伺服器中更新資料
  • DELETE:用於在伺服器中刪除指定資料
  • PUT: 用於向伺服器提交新的資料

並且在處理過程中,和伺服器互動的引數有可能會包含在Url地址中,這樣更加提高了引數的安全性。

2.3.2.請求頭request header

請求頭資訊是請求資料的重要組成部分之一,包含了客戶端請求的身份標識等重要資訊,就請求頭簡單瞭解如下內容:

  • Host:訪問web資源的網路域名和埠號
  • Connection: 連線型別,一般當下瀏覽器都會發送一個這樣資料:Connection:keep-alive給對應的伺服器,keep-alive是保持連線的意思,也就是長連線的意思,如果伺服器支援客戶端keep-alive長連線,會返回包含keep-alive的響應資料表示建立長連線,可以繼續進行操作;如果伺服器不支援就直接返回close關閉連線操作
  • Upgrade-insecure-requests:請求升級,就是當用戶在通過http協議訪問當前資源資料時,自動替換為https安全訪問協議並且不提示警告資訊
  • User-agent:使用者代理,用於代理客戶發起請求的工具,一般表示瀏覽器,描述訪問網頁的瀏覽器的資訊
  • Accept:接受資料型別描述;如Accept:text/html;表示客戶端可以接收的資料是html網頁文件資料;Accept:/;表示客戶端可以接收任何資料
  • Accept-encoding:接受檔案的解碼格式,一般傳輸的內容如:Accept-encoding:gzip;q=1.0;identify;q=0.5;*;q=0,表示如果有返回多種資料內容,首先匹配gzip壓縮的文件內容,如果不是通過gzip壓縮的格式,就匹配identify壓縮編碼格式;否則就接受任意編碼格式的資料
  • Accept-language:客戶端的語言型別,當伺服器支援指定的語言型別時,返回給客戶端指定的國際化語言內容;
  • Referer:請求來源,也就是當前網頁是從哪個網頁發起的請求,一般用於反盜鏈操作
  • Cookie:傳送給伺服器的cookie資料,通過請求頭中的cookie屬性將客戶端的cookie資料傳遞給伺服器進行處理
  • Content-type:內容型別,一般在POST請求中有效,表示指定post請求傳遞的資料的型別

2.3.3. 響應頭response header

當伺服器正常處理了需要操作的業務之後,就會以響應的方式返回給客戶端瀏覽器對應的資料,響應物件本身就會包含對於響應的資料內容的描述資訊

  • Cache-control:must-revalidate|no-cache|private

該響應頭資訊非常重要,如果響應頭明確Cache-control:max-age=0或者no-cache表示不快取任何資料,任何時間再次發起請求都從伺服器獲取新的資料;同樣如果指定了Cache-control:max-age=102460*60則表示在指定的時間段獲取新的資料直接從快取中提取,不需要從伺服器獲取;如果響應頭中不包含Cache-control資訊,則所有資料全部採用預設快取方式

  • Connection:keep-alive|close

用於高速客戶端的請求方式是否保持連線,某些情況下保持連線是必要的,可以在多次發起連線時重複使用開啟的連線方式,有助於提高處理效率

  • Content-encoding:gzip

響應內容編碼方式,一般預設gzip,就是告訴客戶端伺服器響應的資料內容是經過gzip壓縮處理的,需要客戶端解壓縮解碼操作

  • Content-type:text/html;charset=UTF-8

響應資料內容型別,一般直接描述內容的檔案屬性和編碼方式,方便客戶端瀏覽器可以針對檔案屬性使用指定方式進行載入,通過指定的編碼方式進行解碼操作正常顯示載入的資料內容

  • Date:Sat, 06 Jan 2018 02:48:36 GMT

響應資料傳輸時間,HTTP協議標準指定使用GMT格林尼治時間

  • Expires:Sat, 13 Jan 2018 01:00:07 GMT

過期時間,指定某個資源的過期時間,過期之前通過快取直接提取資料而不是從伺服器獲取資料

  • Server:BWS/1.1

伺服器資訊描述

  • Transfer-encoding:chunked

響應資料內容分塊

2.3.4.HTTP狀態碼

編碼 描述
100 客戶端應當繼續傳送請求。這個臨時響應是用來通知客戶端它的部分請求已經被伺服器接收,且仍未被拒絕。客戶端應當繼續傳送請求的剩餘部分,或者如果請求已經完成,忽略這個響應。伺服器必須在請求完成後向客戶端傳送一個最終響應。
101 伺服器已經理解了客戶端的請求,並將通過Upgrade 訊息頭通知客戶端採用不同的協議來完成這個請求。在傳送完這個響應最後的空行後,伺服器將會切換到在Upgrade 訊息頭中定義的那些協議。   只有在切換新的協議更有好處的時候才應該採取類似措施。例如,切換到新的HTTP 版本比舊版本更有優勢,或者切換到一個實時且同步的協議以傳送利用此類特性的資源。
102 由WebDAV(RFC 2518)擴充套件的狀態碼,代表處理將被繼續執行。
200 請求已成功,請求所希望的響應頭或資料體將隨此響應返回。
201 請求已經被實現,而且有一個新的資源已經依據請求的需要而建立,且其 URI 已經隨Location 頭資訊返回。假如需要的資源無法及時建立的話,應當返回 '202 Accepted'。
202 伺服器已接受請求,但尚未處理。正如它可能被拒絕一樣,最終該請求可能會也可能不會被執行。在非同步操作的場合下,沒有比傳送這個狀態碼更方便的做法了。   返回202狀態碼的響應的目的是允許伺服器接受其他過程的請求(例如某個每天只執行一次的基於批處理的操作),而不必讓客戶端一直保持與伺服器的連線直到批處理操作全部完成。在接受請求處理並返回202狀態碼的響應應當在返回的實體中包含一些指示處理當前狀態的資訊,以及指向處理狀態監視器或狀態預測的指標,以便使用者能夠估計操作是否已經完成。
203 伺服器已成功處理了請求,但返回的實體頭部元資訊不是在原始伺服器上有效的確定集合,而是來自本地或者第三方的拷貝。當前的資訊可能是原始版本的子集或者超集。例如,包含資源的元資料可能導致原始伺服器知道元資訊的超級。使用此狀態碼不是必須的,而且只有在響應不使用此狀態碼便會返回200 OK的情況下才是合適的。
204 伺服器成功處理了請求,但不需要返回任何實體內容,並且希望返回更新了的元資訊。響應可能通過實體頭部的形式,返回新的或更新後的元資訊。如果存在這些頭部資訊,則應當與所請求的變數相呼應。   如果客戶端是瀏覽器的話,那麼使用者瀏覽器應保留髮送了該請求的頁面,而不產生任何文件檢視上的變化,即使按照規範新的或更新後的元資訊應當被應用到使用者瀏覽器活動檢視中的文件。   由於204響應被禁止包含任何訊息體,因此它始終以訊息頭後的第一個空行結尾。
205 伺服器成功處理了請求,且沒有返回任何內容。但是與204響應不同,返回此狀態碼的響應要求請求者重置文件檢視。該響應主要是被用於接受使用者輸入後,立即重置表單,以便使用者能夠輕鬆地開始另一次輸入。   與204響應一樣,該響應也被禁止包含任何訊息體,且以訊息頭後的第一個空行結束。
206 伺服器已經成功處理了部分 GET 請求。類似於 FlashGet 或者迅雷這類的 HTTP 下載工具都是使用此類響應實現斷點續傳或者將一個大文件分解為多個下載段同時下載。   該請求必須包含 Range 頭資訊來指示客戶端希望得到的內容範圍,並且可能包含 If-Range 來作為請求條件。   響應必須包含如下的頭部域:   Content-Range 用以指示本次響應中返回的內容的範圍;如果是 Content-Type 為 multipart/byteranges 的多段下載,則每一 multipart 段中都應包含 Content-Range 域用以指示本段的內容範圍。假如響應中包含 Content-Length,那麼它的數值必須匹配它返回的內容範圍的真實位元組數。   Date   ETag 和/或 Content-Location,假如同樣的請求本應該返回200響應。   Expires, Cache-Control,和/或 Vary,假如其值可能與之前相同變數的其他響應對應的值不同的話。   假如本響應請求使用了 If-Range 強快取驗證,那麼本次響應不應該包含其他實體頭;假如本響應的請求使用了 If-Range 弱快取驗證,那麼本次響應禁止包含其他實體頭;這避免了快取的實體內容和更新了的實體頭資訊之間的不一致。否則,本響應就應當包含所有本應該返回200響應中應當返回的所有實體頭部域。   假如 ETag 或 Last-Modified 頭部不能精確匹配的話,則客戶端快取應禁止將206響應返回的內容與之前任何快取過的內容組合在一起。   任何不支援 Range 以及 Content-Range 頭的快取都禁止快取206響應返回的內容。
207 由WebDAV(RFC 2518)擴充套件的狀態碼,代表之後的訊息體將是一個XML訊息,並且可能依照之前子請求數量的不同,包含一系列獨立的響應程式碼。
300 被請求的資源有一系列可供選擇的回饋資訊,每個都有自己特定的地址和瀏覽器驅動的商議資訊。使用者或瀏覽器能夠自行選擇一個首選的地址進行重定向。   除非這是一個 HEAD 請求,否則該響應應當包括一個資源特性及地址的列表的實體,以便使用者或瀏覽器從中選擇最合適的重定向地址。這個實體的格式由 Content-Type 定義的格式所決定。瀏覽器可能根據響應的格式以及瀏覽器自身能力,自動作出最合適的選擇。當然,RFC 2616規範並沒有規定這樣的自動選擇該如何進行。   如果伺服器本身已經有了首選的回饋選擇,那麼在 Location 中應當指明這個回饋的 URI;瀏覽器可能會將這個 Location 值作為自動重定向的地址。此外,除非額外指定,否則這個響應也是可快取的。
301 被請求的資源已永久移動到新位置,並且將來任何對此資源的引用都應該使用本響應返回的若干個 URI 之一。如果可能,擁有連結編輯功能的客戶端應當自動把請求的地址修改為從伺服器反饋回來的地址。除非額外指定,否則這個響應也是可快取的。   新的永久性的 URI 應當在響應的 Location 域中返回。除非這是一個 HEAD 請求,否則響應的實體中應當包含指向新的 URI 的超連結及簡短說明。   如果這不是一個 GET 或者 HEAD 請求,因此瀏覽器禁止自動進行重定向,除非得到使用者的確認,因為請求的條件可能因此發生變化。   注意:對於某些使用 HTTP/1.0 協議的瀏覽器,當它們傳送的 POST 請求得到了一個301響應的話,接下來的重定向請求將會變成 GET 方式。
302 請求的資源現在臨時從不同的 URI 響應請求。由於這樣的重定向是臨時的,客戶端應當繼續向原有地址傳送以後的請求。只有在Cache-Control或Expires中進行了指定的情況下,這個響應才是可快取的。   新的臨時性的 URI 應當在響應的 Location 域中返回。除非這是一個 HEAD 請求,否則響應的實體中應當包含指向新的 URI 的超連結及簡短說明。   如果這不是一個 GET 或者 HEAD 請求,那麼瀏覽器禁止自動進行重定向,除非得到使用者的確認,因為請求的條件可能因此發生變化。   注意:雖然RFC 1945和RFC 2068規範不允許客戶端在重定向時改變請求的方法,但是很多現存的瀏覽器將302響應視作為303響應,並且使用 GET 方式訪問在 Location 中規定的 URI,而無視原先請求的方法。狀態碼303和307被添加了進來,用以明確伺服器期待客戶端進行何種反應。
303 對應當前請求的響應可以在另一個 URI 上被找到,而且客戶端應當採用 GET 的方式訪問那個資源。這個方法的存在主要是為了允許由指令碼啟用的POST請求輸出重定向到一個新的資源。這個新的 URI 不是原始資源的替代引用。同時,303響應禁止被快取。當然,第二個請求(重定向)可能被快取。   新的 URI 應當在響應的 Location 域中返回。除非這是一個 HEAD 請求,否則響應的實體中應當包含指向新的 URI 的超連結及簡短說明。   注意:許多 HTTP/1.1 版以前的 瀏覽器不能正確理解303狀態。如果需要考慮與這些瀏覽器之間的互動,302狀態碼應該可以勝任,因為大多數的瀏覽器處理302響應時的方式恰恰就是上述規範要求客戶端處理303響應時應當做的。
304 如果客戶端傳送了一個帶條件的 GET 請求且該請求已被允許,而文件的內容(自上次訪問以來或者根據請求的條件)並沒有改變,則伺服器應當返回這個狀態碼。304響應禁止包含訊息體,因此始終以訊息頭後的第一個空行結尾。   該響應必須包含以下的頭資訊:   Date,除非這個伺服器沒有時鐘。假如沒有時鐘的伺服器也遵守這些規則,那麼代理伺服器以及客戶端可以自行將 Date 欄位新增到接收到的響應頭中去(正如RFC 2068中規定的一樣),快取機制將會正常工作。   ETag 和/或 Content-Location,假如同樣的請求本應返回200響應。   Expires, Cache-Control,和/或Vary,假如其值可能與之前相同變數的其他響應對應的值不同的話。   假如本響應請求使用了強快取驗證,那麼本次響應不應該包含其他實體頭;否則(例如,某個帶條件的 GET 請求使用了弱快取驗證),本次響應禁止包含其他實體頭;這避免了快取了的實體內容和更新了的實體頭資訊之間的不一致。   假如某個304響應指明瞭當前某個實體沒有快取,那麼快取系統必須忽視這個響應,並且重複傳送不包含限制條件的請求。   假如接收到一個要求更新某個快取條目的304響應,那麼快取系統必須更新整個條目以反映所有在響應中被更新的欄位的值。
305 被請求的資源必須通過指定的代理才能被訪問。Location 域中將給出指定的代理所在的 URI 資訊,接收者需要重複傳送一個單獨的請求,通過這個代理才能訪問相應資源。只有原始伺服器才能建立305響應。   注意:RFC 2068中沒有明確305響應是為了重定向一個單獨的請求,而且只能被原始伺服器建立。忽視這些限制可能導致嚴重的安全後果。
306 在最新版的規範中,306狀態碼已經不再被使用。
307 請求的資源現在臨時從不同的URI 響應請求。由於這樣的重定向是臨時的,客戶端應當繼續向原有地址傳送以後的請求。只有在Cache-Control或Expires中進行了指定的情況下,這個響應才是可快取的。   新的臨時性的URI 應當在響應的 Location 域中返回。除非這是一個HEAD 請求,否則響應的實體中應當包含指向新的URI 的超連結及簡短說明。因為部分瀏覽器不能識別307響應,因此需要新增上述必要資訊以便使用者能夠理解並向新的 URI 發出訪問請求。   如果這不是一個GET 或者 HEAD 請求,那麼瀏覽器禁止自動進行重定向,除非得到使用者的確認,因為請求的條件可能因此發生變化。
400 1、語義有誤,當前請求無法被伺服器理解。除非進行修改,否則客戶端不應該重複提交這個請求。   2、請求引數有誤。
401 當前請求需要使用者驗證。該響應必須包含一個適用於被請求資源的 WWW-Authenticate 資訊頭用以詢問使用者資訊。客戶端可以重複提交一個包含恰當的 Authorization 頭資訊的請求。如果當前請求已經包含了 Authorization 證書,那麼401響應代表著伺服器驗證已經拒絕了那些證書。如果401響應包含了與前一個響應相同的身份驗證詢問,且瀏覽器已經至少嘗試了一次驗證,那麼瀏覽器應當向用戶展示響應中包含的實體資訊,因為這個實體資訊中可能包含了相關診斷資訊。參見RFC 2617。
402 該狀態碼是為了將來可能的需求而預留的。
403 伺服器已經理解請求,但是拒絕執行它。與401響應不同的是,身份驗證並不能提供任何幫助,而且這個請求也不應該被重複提交。如果這不是一個 HEAD 請求,而且伺服器希望能夠講清楚為何請求不能被執行,那麼就應該在實體內描述拒絕的原因。當然伺服器也可以返回一個404響應,假如它不希望讓客戶端獲得任何資訊。
404 請求失敗,請求所希望得到的資源未被在伺服器上發現。沒有資訊能夠告訴使用者這個狀況到底是暫時的還是永久的。假如伺服器知道情況的話,應當使用410狀態碼來告知舊資源因為某些內部的配置機制問題,已經永久的不可用,而且沒有任何可以跳轉的地址。404這個狀態碼被廣泛應用於當伺服器不想揭示到底為何請求被拒絕或者沒有其他適合的響應可用的情況下。
405 請求行中指定的請求方法不能被用於請求相應的資源。該響應必須返回一個Allow 頭資訊用以表示出當前資源能夠接受的請求方法的列表。   鑑於 PUT,DELETE 方法會對伺服器上的資源進行寫操作,因而絕大部分的網頁伺服器都不支援或者在預設配置下不允許上述請求方法,對於此類請求均會返回405錯誤。
406 請求的資源的內容特性無法滿足請求頭中的條件,因而無法生成響應實體。   除非這是一個 HEAD 請求,否則該響應就應當返回一個包含可以讓使用者或者瀏覽器從中選擇最合適的實體特性以及地址列表的實體。實體的格式由 Content-Type 頭中定義的媒體型別決定。瀏覽器可以根據格式及自身能力自行作出最佳選擇。但是,規範中並沒有定義任何作出此類自動選擇的標準。
407 與401響應類似,只不過客戶端必須在代理伺服器上進行身份驗證。代理伺服器必須返回一個 Proxy-Authenticate 用以進行身份詢問。客戶端可以返回一個 Proxy-Authorization 資訊頭用以驗證。參見RFC 2617。
408 請求超時。客戶端沒有在伺服器預備等待的時間內完成一個請求的傳送。客戶端可以隨時再次提交這一請求而無需進行任何更改。
409 由於和被請求的資源的當前狀態之間存在衝突,請求無法完成。這個程式碼只允許用在這樣的情況下才能被使用:使用者被認為能夠解決衝突,並且會重新提交新的請求。該響應應當包含足夠的資訊以便使用者發現衝突的源頭。   衝突通常發生於對 PUT 請求的處理中。例如,在採用版本檢查的環境下,某次 PUT 提交的對特定資源的修改請求所附帶的版本資訊與之前的某個(第三方)請求向衝突,那麼此時伺服器就應該返回一個409錯誤,告知使用者請求無法完成。此時,響應實體中很可能會包含兩個衝突版本之間的差異比較,以便使用者重新提交歸併以後的新版本。
410 被請求的資源在伺服器上已經不再可用,而且沒有任何已知的轉發地址。這樣的狀況應當被認為是永久性的。如果可能,擁有連結編輯功能的客戶端應當在獲得使用者許可後刪除所有指向這個地址的引用。如果伺服器不知道或者無法確定這個狀況是否是永久的,那麼就應該使用404狀態碼。除非額外說明,否則這個響應是可快取的。   410響應的目的主要是幫助網站管理員維護網站,通知使用者該資源已經不再可用,並且伺服器擁有者希望所有指向這個資源的遠端連線也被刪除。這類事件在限時、增值服務中很普遍。同樣,410響應也被用於通知客戶端在當前伺服器站點上,原本屬於某個個人的資源已經不再可用。當然,是否需要把所有永久不可用的資源標記為'410 Gone',以及是否需要保持此標記多長時間,完全取決於伺服器擁有者。
411 伺服器拒絕在沒有定義 Content-Length 頭的情況下接受請求。在添加了表明請求訊息體長度的有效 Content-Length 頭之後,客戶端可以再次提交該請求。
412 伺服器在驗證在請求的頭欄位中給出先決條件時,沒能滿足其中的一個或多個。這個狀態碼允許客戶端在獲取資源時在請求的元資訊(請求頭欄位資料)中設定先決條件,以此避免該請求方法被應用到其希望的內容以外的資源上。
413 伺服器拒絕處理當前請求,因為該請求提交的實體資料大小超過了伺服器願意或者能夠處理的範圍。此種情況下,伺服器可以關閉連線以免客戶端繼續傳送此請求。   如果這個狀況是臨時的,伺服器應當返回一個 Retry-After 的響應頭,以告知客戶端可以在多少時間以後重新嘗試。
414 請求的URI 長度超過了伺服器能夠解釋的長度,因此伺服器拒絕對該請求提供服務。這比較少見,通常的情況包括:   本應使用POST方法的表單提交變成了GET方法,導致查詢字串(Query String)過長。   重定向URI “黑洞”,例如每次重定向把舊的 URI 作為新的 URI 的一部分,導致在若干次重定向後 URI 超長。   客戶端正在嘗試利用某些伺服器中存在的安全漏洞攻擊伺服器。這類伺服器使用固定長度的緩衝讀取或操作請求的 URI,當 GET 後的引數超過某個數值後,可能會產生緩衝區溢位,導致任意程式碼被執行[1]。沒有此類漏洞的伺服器,應當返回414狀態碼。
415 對於當前請求的方法和所請求的資源,請求中提交的實體並不是伺服器中所支援的格式,因此請求被拒絕。
416 如果請求中包含了 Range 請求頭,並且 Range 中指定的任何資料範圍都與當前資源的可用範圍不重合,同時請求中又沒有定義 If-Range 請求頭,那麼伺服器就應當返回416狀態碼。   假如 Range 使用的是位元組範圍,那麼這種情況就是指請求指定的所有資料範圍的首位元組位置都超過了當前資源的長度。伺服器也應當在返回416狀態碼的同時,包含一個 Content-Range 實體頭,用以指明當前資源的長度。這個響應也被禁止使用 multipart/byteranges 作為其 Content-Type。
417 在請求頭 Expect 中指定的預期內容無法被伺服器滿足,或者這個伺服器是一個代理伺服器,它有明顯的證據證明在當前路由的下一個節點上,Expect 的內容無法被滿足。
421 從當前客戶端所在的IP地址到伺服器的連線數超過了伺服器許可的最大範圍。通常,這裡的IP地址指的是從伺服器上看到的客戶端地址(比如使用者的閘道器或者代理伺服器地址)。在這種情況下,連線數的計算可能涉及到不止一個終端使用者。
422 從當前客戶端所在的IP地址到伺服器的連線數超過了伺服器許可的最大範圍。通常,這裡的IP地址指的是從伺服器上看到的客戶端地址(比如使用者的閘道器或者代理伺服器地址)。在這種情況下,連線數的計算可能涉及到不止一個終端使用者。
422 請求格式正確,但是由於含有語義錯誤,無法響應。(RFC 4918 WebDAV)423 Locked   當前資源被鎖定。(RFC 4918 WebDAV)
424 由於之前的某個請求發生的錯誤,導致當前請求失敗,例如 PROPPATCH。(RFC 4918 WebDAV)
425 在WebDav Advanced Collections 草案中定義,但是未出現在《WebDAV 順序集協議》(RFC 3658)中。
426 客戶端應當切換到TLS/1.0。(RFC 2817)
449 由微軟擴充套件,代表請求應當在執行完適當的操作後進行重試。
500 伺服器遇到了一個未曾預料的狀況,導致了它無法完成對請求的處理。一般來說,這個問題都會在伺服器的程式碼出錯時出現。
501 伺服器不支援當前請求所需要的某個功能。當伺服器無法識別請求的方法,並且無法支援其對任何資源的請求。
502 作為閘道器或者代理工作的伺服器嘗試執行請求時,從上游伺服器接收到無效的響應。
503 由於臨時的伺服器維護或者過載,伺服器當前無法處理請求。這個狀況是臨時的,並且將在一段時間以後恢復。如果能夠預計延遲時間,那麼響應中可以包含一個 Retry-After 頭用以標明這個延遲時間。如果沒有給出這個 Retry-After 資訊,那麼客戶端應當以處理500響應的方式處理它。   注意:503狀態碼的存在並不意味著伺服器在過載的時候必須使用它。某些伺服器只不過是希望拒絕客戶端的連線。
504 作為閘道器或者代理工作的伺服器嘗試執行請求時,未能及時從上游伺服器(URI標識出的伺服器,例如HTTP、FTP、LDAP)或者輔助伺服器(例如DNS)收到響應。   注意:某些代理伺服器在DNS查詢超時時會返回400或者500錯誤
505 伺服器不支援,或者拒絕支援在請求中使用的 HTTP 版本。這暗示著伺服器不能或不願使用與客戶端相同的版本。響應中應當包含一個描述了為何版本不被支援以及伺服器支援哪些協議的實體。
506 由《透明內容協商協議》(RFC 2295)擴充套件,代表伺服器存在內部配置錯誤:被請求的協商變元資源被配置為在透明內容協商中使用自己,因此在一個協商處理中不是一個合適的重點。
507 伺服器無法儲存完成請求所必須的內容。這個狀況被認為是臨時的。WebDAV (RFC 4918)
509 伺服器達到頻寬限制。這不是一個官方的狀態碼,但是仍被廣泛使用。
510 獲取資源所需要的策略並沒有沒滿足。(RFC 2774)

2.4. 網路資料抓包分析

進行網路爬蟲程式開發之前,首先針對網路資料進行定位分析非常重要,對於網路資料的定位處理通常使用抓包工具進行操作,常用的抓包工具如瀏覽器F12工具、Fiddler、wireshark等等,在爬蟲處理過程中,使用較多的是F12網路工具和Fiddler。