HTTP協議詳解 轉自小坦克
當今web程式的開發技術真是百家爭鳴,ASP.NET, PHP, JSP,Perl, AJAX 等等。 無論Web技術在未來如何發展,理解Web程式之間通訊的基本協議相當重要, 因為它讓我們理解了Web應用程式的內部工作. 本文將對HTTP協議進行詳細的例項講解,內容較多,希望大家耐心看。也希望對大家的開發工作或者測試工作有所幫助。使用Fiddler工具非常方便地捕 獲HTTP Request和HTTP Response, 關於Fiddler工具的用法,請看我另一篇部落格[Fiddler 教程] 1.什麼是HTTP協議
點選返回目錄
http協議是指計算機通訊網路中兩臺計算機之間進行通訊所必須共同遵守的規定或規則,超文字傳輸協議(HTTP)是一種通訊協議,它允許將超文字標記語言(HTML)文件從Web伺服器傳送到客戶端的瀏覽器
HTTP是一個客戶端和伺服器端請求和應答的標準(TCP)。客戶端是終端使用者,伺服器端是網站。通過使用Web瀏覽器、網路爬蟲或者其它的工具(如postman,firefox的poster,jmeter,甚至python中的Requests ),客戶端發起一個到伺服器上指定埠(預設埠為80)的HTTP請求。(我們稱這個客戶端)叫使用者代理(user agent)。應答的伺服器上儲存著(一些)資源,比如HTML檔案和影象。(我們稱)這個應答伺服器為源伺服器(origin server)。
通常,由HTTP客戶端發起一個請求,建立一個到伺服器指定埠(預設是80埠)的TCP連線。HTTP伺服器則在那個埠監聽客戶端傳送過來的請求。一旦收到請求,伺服器(向客戶端)發回一個狀態行,比如”HTTP/1.1 200 OK”,和(響應的)訊息,訊息的訊息體可能是請求的檔案、錯誤訊息、或者其它一些資訊。
HTTP使用TCP而不是UDP的原因在於(開啟)一個網頁必須傳送很多資料,而TCP協議提供傳輸控制,按順序組織資料,和錯誤糾正。
目前我們使用的是HTTP/1.1 版本 2.Web伺服器,瀏覽器,代理伺服器
點選返回目錄
當我們開啟瀏覽器,在位址列中輸入URL,然後我們就看到了網頁。 原理是怎樣的呢?
實際上我們輸入URL後,我們的瀏覽器給Web伺服器傳送了一個Request, Web伺服器接到Request後進行處理,生成相應的Response,然後傳送給瀏覽器, 瀏覽器解析Response中的HTML,這樣我們就看到了網頁,過程如下圖所示
我們的Request 有可能是經過了代理伺服器,最後才到達Web伺服器的。
過程如下圖所示
代理伺服器就是網路資訊的中轉站,有什麼功能呢?
提高訪問速度, 大多數的代理伺服器都有快取功能。
突破限制, 也就是FQ了
隱藏身份。
3.URL詳解
點選返回目錄
URL(Uniform Resource Locator) 地址用於描述一個網路上的資源, 基本格式如下:
schema://host[:port]/path/…[?query-string][#anchor]
scheme 指定應用層使用的協議(例如:http, https, ftp)
host HTTP伺服器的IP地址或者域名
port HTTP伺服器的預設埠是80,這種情況下埠號可以省略。如果使用了別的埠,必須指明,例如 http://www.cnblogs.com:8080/
path 訪問資源的路徑
query-string 傳送給http伺服器的資料,多個引數用&連結,若有中文,URL會採用百分制編碼。
anchor 錨
URL 的一個例子 複製程式碼 複製程式碼
Schema: http host: www.mywebsite.com path: /sj/test/test.aspx Query String: name=sviergn&x=true Anchor: stuff
複製程式碼 複製程式碼
4.HTTP協議是無狀態的
點選返回目錄
http協議是無狀態的,同一個客戶端的這次請求和上次請求是沒有對應關係,對http伺服器來說,它並不知道這兩個請求來自同一個客戶端。 為了解決這個問題, Web程式引入了Cookie機制來維護狀態.
注:HTTP協議的主要特點可概括如下:
1.支援客戶/伺服器模式。
2.簡單快速:客戶向伺服器請求服務時,只需傳送請求方法和路徑。請求方法常用的有GET、HEAD、POST。每種方 法規定了客戶與伺服器聯絡的型別不同。由於HTTP協議簡單,使得HTTP伺服器的程式規模小,因而通訊速度很快。
3.靈活:HTTP允許傳輸任意型別的資料物件。正在傳輸的型別由Content-Type加以標記。
4.無連線:無連線的含義是限制每次連線只處理一個請求。伺服器處理完客戶的請求,並收到客戶的應答後,即斷開連線。採用這種方式可以節省傳輸時間。
隨著時間的推移,網頁變得越來越複雜,裡面可能嵌入了很多圖片,這時候每次訪問圖片都需要建立一次 TCP 連線就顯得很低效。後來,Keep-Alive 被提出用來解決這效率低的問題。Keep-Alive 功能使客戶端到伺服器端的連線持續有效,當出現對伺服器的後繼請求時,Keep-Alive 功能避免了建立或者重新建立連線。市場上的大部分Web 伺服器,包括 iPlanet、IIS 和 Apache,都支援 HTTP Keep-Alive。
5.無狀態:HTTP協議是無狀態協議。無狀態是指協議對於事務處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的資訊,則它必須重傳,這樣可能導致每次連線傳送的資料量增大。另一方面,在伺服器不需要先前資訊時它的應答就 、較快。客戶端與伺服器進行動態互動的 Web 應用程式出現之後,HTTP 無狀態的特性嚴重阻礙了這些應用程式的實現,畢竟互動是需要承前啟後的,兩種用於保持 HTTP 連線狀態的技術就應運而生了,一個是 Cookie,而另一個則是Session。
5.開啟一個網頁需要瀏覽器傳送很多次Request
點選返回目錄
瀏覽器分析Response中的 HTML,發現其中引用了很多其他檔案,比如圖片,CSS檔案,JS檔案。
瀏覽器會自動再次傳送Request去獲取圖片,CSS檔案,或者JS檔案。
等所有的檔案都下載成功後。 網頁就被顯示出來了。
6.HTTP訊息的結構
點選返回目錄
先看Request 訊息的結構, Request 訊息分為3部分,第一部分叫Request line, 第二部分叫Request header, 第三部分是body. header和body之間有個空行, 結構如下圖
第一行中的Method表示請求方法,比如”POST”,”GET”, Path-resoure表示請求的資源, Http/version部落格園首頁的request 如下
抽象的東西,難以理解,老感覺是虛的, 所謂眼見為實, 實際見到的東西,我們才能理解和記憶。 我們今天用Fiddler,實際的看看Request和Response.
下面我們開啟Fiddler 捕捉一個部落格園登入的Request 然後分析下它的結構, 在Inspectors tab下以Raw的方式可以看到完整的Request的訊息, 如下圖
我們再看Response訊息的結構, 和Request訊息的結構基本一樣。 同樣也分為三部分,第一部分叫Response line, 第二部分叫Response header,第三部分是body. header和body之間也有個空行, 結構如下圖
HTTP/version-code 和message 請看下節[狀態程式碼]的詳細解釋.
我們用Fiddler 捕捉一個部落格園首頁的Response然後分析下它的結構, 在Inspectors tab下以Raw的方式可以看到完整的Response的訊息, 如下圖
7.Get和Post方法的區別
點選返回目錄
Http協議定義了很多與伺服器互動的方法,最基本的有4種,分別是GET,POST,PUT,DELETE. 一個URL地址用於描述一個網路上的資源,而HTTP中的GET, POST, PUT, DELETE就對應著對這個資源的查,改,增,刪4個操作。 我們最常見的就是GET和POST了。GET一般用於獲取/查詢資源資訊,而POST一般用於更新資源資訊.
我們看看GET和POST的區別
GET提交的資料會放在URL之後,以?分割URL和傳輸資料,引數之間以&相連,如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的資料放在HTTP包的Body中.
GET提交的資料大小有限制(因為瀏覽器對URL的長度有限制),而POST方法提交的資料沒有限制.
GET方式需要使用Request.QueryString來取得變數的值,而POST方式通過Request.Form來獲取變數的值。
GET方式提交資料,會帶來安全問題,比如一個登入頁面,通過GET方式提交資料時,使用者名稱和密碼將出現在URL上,如果頁面可以被快取或者其他人可以訪問這臺機器,就可以從歷史記錄獲得該使用者的賬號和密碼.
8.狀態碼
點選返回目錄
Response 訊息中的第一行叫做狀態行,由HTTP協議版本號, 狀態碼, 狀態訊息 三部分組成。
狀態碼用來告訴HTTP客戶端,HTTP伺服器是否產生了預期的Response.
HTTP/1.1中定義了5類狀態碼, 狀態碼由三位數字組成,第一個數字定義了響應的類別
1XX 提示資訊 - 表示請求已被成功接收,理解,接受
3XX 重定向 - 請求有語法錯誤或請求無法實現
5XX 伺服器端錯誤 - 伺服器未能實現合法的請求
看看一些常見的狀態碼
200 OK
最常見的就是成功響應狀態碼200了, 這表明該請求被成功地完成,所請求的資源傳送回客戶端
如下圖, 開啟
302 Found
重定向,新的URL會在response 中的Location中返回,瀏覽器將會自動使用新的URL發出新的Request
例如在IE中輸入, http://www.google.com. HTTP伺服器會返回302, IE取到Response中Location header的新URL, 又重新發送了一個Request.
304 Not Modified
代表上次的文件已經被快取了, 還可以繼續使用,
例如開啟部落格園首頁, 發現很多Response 的status code 都是304
提示: 如果你不想使用本地快取可以用Ctrl+F5 強制重新整理頁面
400 Bad Request 客戶端請求與語法錯誤,不能被伺服器所理解
403 Forbidden 伺服器收到請求,但是拒絕提供服務
404 Not Found
請求資源不存在(輸錯了URL)
500 Internal Server Error 伺服器發生了不可預期的錯誤
503 Server Unavailable 伺服器當前不能處理客戶端的請求,一段時間後可能恢復正常
9.HTTP Request header
點選返回目錄
使用Fiddler 能很方便的檢視Reques header, 點選Inspectors tab -> headers 如下圖所示.
header 有很多,比較難以記憶,我們也按照Fiddler那樣把header 進行分類,這樣比較清晰也容易記憶。 Cache 頭域
If-Since
作用: 把瀏覽器端快取頁面的最後修改時間傳送到伺服器去,伺服器會把這個時間與伺服器上實際檔案的最後修改時間進行對比。如果時間一致,那麼返回304,客戶端就直接使用本地快取檔案。如果時間不一致,就會返回200和新的檔案內容。客戶端接到之後,會丟棄舊檔案,把新檔案快取起來,並顯示在瀏覽器中.
例如:If-Since: Thu, 09 Feb 2012 09:07:57 GMT
例項如下圖
If-Match
作用: If-Match和ETag一起工作,工作原理是在HTTP Response中新增ETag資訊。 當用戶再次請求該資源時,將在HTTP Request 中加入If-Match資訊(ETag的值)。如果伺服器驗證資源的ETag沒有改變(該資源沒有更新),將返回一個304狀態告訴客戶端使用本地快取檔案。否則將返回200狀態和新的資源和Etag. 使用這樣的機制將提高網站的效能
例如: If-Match: “03f2b33c0bfcc1:0”
例項如下圖
Pragma
作用: 防止頁面被快取, 在HTTP/1.1版本中,它和Cache-cache作用一模一樣
Pargma只有一個用法, 例如: Pragma: no注意: 在HTTP/1.0版本中,只實現了Pragema:no-Control
Cache-Request遵循的快取機制。各個指令含義如下
Cache-Control:Public 可以被任何快取所快取()
Cache-Control:Private 內容只快取到私有快取中
Cache-cache 所有內容都不會被快取
還有其他的一些用法, 我沒搞懂其中的意思, 請大家參考其他的資料
Client 頭域
Accept
作用: 瀏覽器端可以接受的媒體型別,
例如: Accept: text/html 代表瀏覽器可以接受伺服器回發的型別為 text/html 也就是我們常說的html文件,
如果伺服器無法返回text/html型別的資料,伺服器應該返回一個406錯誤(non acceptable)
萬用字元 * 代表任意型別
例如 Accept: / 代表瀏覽器可以處理所有型別,(一般瀏覽器發給伺服器都是發這個)
Accept-Encoding:
作用: 瀏覽器申明自己接收的編碼方法,通常指定壓縮方法,是否支援壓縮,支援什麼壓縮方法(gzip,deflate),(注意:這不是隻字元編碼);
例如: Accept-Encoding: gzip, deflate
Accept-Language
作用: 瀏覽器申明自己接收的語言。
語言跟字符集的區別:中文是語言,中文有多種字符集,比如big5,gb2312,gbk等等;
例如: Accept-us
User-Agent這個請求報頭域中獲取到這些資訊UserUser-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C; InfoPath.2; .NET4.0E)
Accept-8(通常我們說Charset包括了相應的字元編碼方案);
例如:
Cookie/Login 頭域
Cookie:
作用: 最重要的header, 將cookie的值傳送給HTTP 伺服器 Entity頭域
Content-Length: 38
Content-Type: application/x-form-urlencoded
Miscellaneous 頭域
Referer:
作用: 提供了Request的上下文資訊的伺服器,告訴伺服器我是從哪個連結過來的,比如從我主頁上鍊接到一個朋友那裡,他的伺服器就能夠從HTTP Referer中統計出每天有多少使用者點選我主頁上的連結訪問他的網站。
Connection
例如: Connection: keep-alive 當一個網頁開啟完成後,客戶端和伺服器之間用於傳輸HTTP資料的TCP連線不會關閉,如果客戶端再次訪問這個伺服器上的網頁,會繼續使用這一條已經建立的連線
例如: Connection: close 代表一個Request完成後,客戶端和伺服器之間用於傳輸HTTP資料的TCP連線會關閉, 當客戶端再次傳送Request,需要重新建立TCP連線。
Host(傳送請求時,該報頭域是必需的)
作用: 請求報頭域主要用於指定被請求資源的Internet主機和埠號,它通常從HTTP URL中提取出來的
瀏覽器傳送的請求訊息中,就會包含Host請求報頭域,如下:
此處使用預設埠號80,若指定了埠號,則變成:Host:指定埠號
10.HTTP Response header
點選返回目錄
同樣使用Fiddler 檢視Response header, 點選Inspectors tab -> headers 如下圖所示
我們也按照Fiddler那樣把header 進行分類,這樣比較清晰也容易記憶。 Cache頭域
Date
作用: 生成訊息的具體時間和日期
例如: Date: Sat, 11 Feb 2012 11:35:14 GMT
Expires
作用: 瀏覽器會在指定過期時間內使用本地快取
例如: Expires: Tue, 08 Feb 2022 11:35:14 GMT
Vary
作用:
例如: Vary: Accept-Encoding
Cookie/Login 頭域
P3P
作用: 用於跨域設定Cookie, 這樣可以解決iframe跨域訪問cookie的問題
例如: P3P: CP=CURa ADMa DEVa PSAo PSDo OUR BUS UNI PUR INT DEM STA PRE COM NAV OTC NOI DSP COR
Set-Cookie.
例如: Set-Cookie: sc=4c31523a; path=/; domain=.acookie.taobao.com
Entity頭域
ETag
作用: 和If-Match 配合使用。 (例項請看上節中If-Match的例項)
例如: ETag: “03f2b33c0bfcc1:0”
Last-Modified-Modified: Wed, 21 Dec 2011 09:09:10 GMT
Content-Type: text/html; charset=utf-Type:text/html;charset=GB2312
Content-Type: image/jpeg
Content-Length的方式要預先在伺服器中快取所有資料,然後所有資料再一股腦兒地發給客戶端。
例如: Content-Length: 19847
Content-Encoding:gzip
Content-Language:da
Miscellaneous 頭域
Server:
作用:指明HTTP伺服器的軟體資訊
例如:Server: Microsoft-IIS/7.5
X-Version:
作用:如果網站是用ASP.NET開發的,這個header用來表示ASP.NET的版本
例如: X-Version: 4.0.30319
X-By:
作用:表示網站是用什麼技術開發的
例如: X-By: ASP.NET
Transport頭域
Connection
例如: Connection: keep-alive 當一個網頁開啟完成後,客戶端和伺服器之間用於傳輸HTTP資料的TCP連線不會關閉,如果客戶端再次訪問這個伺服器上的網頁,會繼續使用這一條已經建立的連線
例如: Connection: close 代表一個Request完成後,客戶端和伺服器之間用於傳輸HTTP資料的TCP連線會關閉, 當客戶端再次傳送Request,需要重新建立TCP連線。 Location頭域
Location
作用: 用於重定向一個新的位置, 包含新的URL地址
例項請看304狀態例項
11.HTTP協議是無狀態的和Connection
點選返回目錄
keep無狀態的面向連線的協議,無狀態不代表HTTP不能保持TCP連線,更不能代表HTTP使用的是UDP協議(無連線)
從HTTP/1.1起,預設都開啟了Keep-Alive不會永久保持連線,它有一個保持時間,可以在不同的伺服器軟體(如Apache)中設定這個時間