HTTP協議基礎及分析工具使用
HTTP(超文字傳輸協議)是一個基於請求與響應模式的、無狀態的、應用層的協議,常基於TCP的連線方式,HTTP1.1版本中給出一種持續連線的機制,絕大多數的Web開發,都是構建在HTTP協議之上的Web應用。
HTTP協議的主要特點:
1.支援客戶/伺服器模式。2.簡單快速:客戶向伺服器請求服務時,只需傳送請求方法和路徑。請求方法常用的有GET、HEAD、POST。每種方法規定了客戶與伺服器聯絡的型別不同。由於HTTP協議簡單,使得HTTP伺服器的程式規模小,因而通訊速度很快。
3.靈活:HTTP允許傳輸任意型別的資料物件。正在傳輸的型別由Content-Type加以標記。
4.無連線:無連線的含義是限制每次連線只處理一個請求。伺服器處理完客戶的請求,並收到客戶的應答後,即斷開連線。採用這種方式可以節省傳輸時間。
5.無狀態:HTTP協議是無狀態協議。無狀態是指協議對於事務處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的資訊,則它必須重傳,這樣可能導致每次連線傳送的資料量增大。另一方面,在伺服器不需要先前資訊時它的應答就較快。
HTTP協議之URL
HTTP URL (URL是一種特殊型別的URI,包含了用於查詢某個資源的足夠的資訊)的格式如下:http://host[":"port][abs_path]
http表示要通過HTTP協議來定位網路資源;
host表示合法的Internet主機域名或者IP地址;
port指定一個埠號,為空則使用預設埠80;
abs_path指定請求資源的URI;
如果URL中沒有給出abs_path,那麼當它作為請求URI時,必須以“/”的形式給出,通常這個工作瀏覽器自動幫我們完成。
例如輸入:
HTTP協議之訊息組成
HTTP訊息由客戶端到伺服器的請求和伺服器到客戶端的響應組成。請求訊息和響應訊息都是由開始行(對於請求訊息,開始行就是請求行,對於響應訊息,開始行就是狀態行),訊息報頭(可選),空行(只有CRLF的行),訊息正文(可選)組成。HTTP訊息報頭包括普通報頭、請求報頭、響應報頭、實體報頭。
每一個報頭域都是由名字+“:”+空格+值 組成,訊息報頭域的名字是大小寫無關的。
HTTP協議之請求頭資訊
http請求由三部分組成,分別是:請求行、訊息報頭、請求正文。
1、請求行
請求行以一個方法符號開頭,以空格分開,後面跟著請求的URI和協議的版本,格式如下:
Method Request-URI HTTP-Version CRLF
其中 Method表示請求方法;Request-URI是一個統一資源識別符號;HTTP-Version表示請求的HTTP協議版本;CRLF表示回車和換行(除了作為結尾的CRLF外,不允許出現單獨的CR或LF字元)。
請求方法(所有方法全為大寫)有多種,各個方法的解釋如下:
GET 請求獲取Request-URI所標識的資源
POST 在Request-URI所標識的資源後附加新的資料
HEAD 請求獲取由Request-URI所標識的資源的響應訊息報頭
PUT 請求伺服器儲存一個資源,並用Request-URI作為其標識
DELETE 請求伺服器刪除Request-URI所標識的資源
TRACE 請求伺服器回送收到的請求資訊,主要用於測試或診斷
CONNECT 保留將來使用
OPTIONS 請求查詢伺服器的效能,或者查詢與資源相關的選項和需求
應用舉例:
GET方法:在瀏覽器的位址列中輸入網址的方式訪問網頁時,瀏覽器採用GET方法向伺服器獲取資源。例如訪問www.baidu.com,請求行為:
GET / HTTP/1.1
POST方法:要求被請求伺服器接受附在請求後面的資料,常用於提交表單。例如,在百度搜索欄填入關鍵字進行搜尋,請求行為:POST /ur/submit/urreward HTTP/1.1
HEAD方法:與GET方法幾乎是一樣的,對於HEAD請求的迴應部分來說,它的HTTP頭部中包含的資訊與通過GET請求所得到的資訊是相同的。利用這個方法,不必傳輸整個資源內容,就可以得到Request-URI所標識的資源的資訊。該方法常用於測試超連結的有效性,是否可以訪問,以及最近是否更新。
2、訊息報頭
2.1 Cache-Control
用於指定快取指令,請求時的快取指令包括:no-cache(用於指示請求或響應訊息不能快取)、no-store、max-age、max-stale、min-fresh、only-if-cached;
2.2 Date
表示訊息產生的日期和時間
2.3 Connection
允許傳送指定連線的選項。例如指定連線是連續,或者指定“close”選項,通知伺服器,在響應完成後,關閉連線。2.4 Accept
用於指定客戶端接受哪些型別的資訊。例如:Accept:image/gif,表明客戶端希望接受GIF圖象格式的資源;Accept:text/html,表明客戶端希望接受html文字。
2.5 Accept-Charset
Accept-Charset請求報頭域用於指定客戶端接受的字符集。例如:Accept-Charset:iso-8859-1,gb2312.如果在請求訊息中沒有設定這個域,預設是任何字符集都可以接受。
2.6 Accept-Encoding
類似於Accept,但是它是用於指定可接受的內容編碼。例如:Accept-Encoding:gzip.deflate.如果請求訊息中沒有設定這個域伺服器假定客戶端對各種內容編碼都可以接受。
2.7 Accept-Language
類似於Accept,但是它是用於指定一種自然語言。eg:Accept-Language:zh-cn.如果請求訊息中沒有設定這個報頭域,伺服器假定客戶端對各種語言都可以接受。
2.8 Authorization
主要用於證明客戶端有權檢視某個資源。當瀏覽器訪問一個頁面時,如果收到伺服器的響應程式碼為401(未授權),可以傳送一個包含Authorization請求報頭域的請求,要求伺服器對其進行驗證。
2.9 Host(傳送請求時,該報頭域是必需的)
Host請求報頭域主要用於指定被請求資源的Internet主機和埠號,它通常從HTTP URL中提取出來的,eg:
我們在瀏覽器中輸入:http://www.baidu.com
瀏覽器傳送的請求訊息中,就會包含Host請求報頭域,如下:
Host:www.baidu.com
此處使用預設埠號80,若指定了埠號,則變成:Host:www.baidu.com:指定埠號
2.10 User-Agent
我們上網登陸論壇的時候,往往會看到一些歡迎資訊,其中列出了你的作業系統的名稱和版本,你所使用的瀏覽器的名稱和版本,這往往讓很多人感到很神奇,實際上,伺服器應用程式就是從User-Agent這個請求報頭域中獲取到這些資訊。User-Agent請求報頭域允許客戶端將它的作業系統、瀏覽器和其它屬性告訴伺服器。不過,這個報頭域不是必需的,如果我們自己編寫一個瀏覽器,不使用User-Agent請求報頭域,那麼伺服器端就無法得知我們的資訊了。
HTTP協議之響應頭資訊
在接收和解釋請求訊息後,伺服器返回一個HTTP響應訊息。HTTP響應也是由三個部分組成,分別是:狀態行、訊息報頭、響應正文。
1、狀態行
格式:HTTP-Version Status-Code Reason-Phrase CRLF
HTTP-Version表示伺服器HTTP協議的版本;Status-Code表示伺服器發回的響應狀態程式碼;Reason-Phrase表示狀態程式碼的文字描述。
狀態程式碼有三位數字組成,第一個數字定義了響應的類別,且有五種可能取值:
1xx:指示資訊--表示請求已接收,繼續處理
2xx:成功--表示請求已被成功接收、理解、接受
3xx:重定向--要完成請求必須進行更進一步的操作
4xx:客戶端錯誤--請求有語法錯誤或請求無法實現
5xx:伺服器端錯誤--伺服器未能實現合法的請求
常見狀態程式碼、狀態描述、說明:
200 OK //客戶端請求成功
400 Bad Request //客戶端請求有語法錯誤,不能被伺服器所理解
401 Unauthorized //請求未經授權,這個狀態程式碼必須和WWW-Authenticate報頭域一起使用
403 Forbidden //伺服器收到請求,但是拒絕提供服務
404 Not Found //請求資源不存在,例如:輸入了錯誤的URL
500 Internal Server Error //伺服器發生不可預期的錯誤
503 Server Unavailable //伺服器當前不能處理客戶端的請求,一段時間後可能恢復正常
2、訊息報頭
2.1 Cache-Control
用於指定快取指令,響應時的快取指令包括:public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage。例如,為了指示IE瀏覽器(客戶端)不要快取頁面,伺服器端的JSP程式可以編寫如下:
response.sehHeader("Cache-Control","no-cache");
//response.setHeader("Pragma","no-cache");作用相當於上述程式碼,通常兩者合用
這句程式碼將在傳送的響應訊息中設定普通報頭域:Cache-Control:no-cache
2.2 Date
表示訊息產生的日期和時間
2.3Connection
允許傳送指定連線的選項。例如指定連線是連續,或者指定“close”選項,通知伺服器,在響應完成後,關閉連線。
2.4 Location
用於重定向接受者到一個新的位置。Location響應報頭域常用在更換域名的時候。
2.5 Server
包含了伺服器用來處理請求的軟體資訊。與User-Agent請求報頭域是相對應的。Server響應報頭域的一個例子:Server:Apache-Coyote/1.1
2.6 WWW-Authenticate
必須被包含在401(未授權的)響應訊息中,客戶端收到401響應訊息時候,併發送Authorization報頭域請求伺服器對其進行驗證時,服務端響應報頭就包含該報頭域。
例如:WWW-Authenticate:Basic realm="Basic Auth Test!" //可以看出伺服器對請求資源採用的是基本驗證機制。
實體報頭
請求和響應訊息都可以傳送一個實體。一個實體由實體報頭域和實體正文組成,但並不是說實體報頭域和實體正文要在一起傳送,可以只發送實體報頭域。實體報頭定義了關於實體正文(eg:有無實體正文)和請求所標識的資源的元資訊。
1 Content-Encoding
用作媒體型別的修飾符,它的值指示了已經被應用到實體正文的附加內容的編碼,因而要獲得Content-Type報頭域中所引用的媒體型別,必須採用相應的解碼機制。Content-Encoding這樣用於記錄文件的壓縮方法,eg:Content-Encoding:gzip
2 Content-Language
描述了資源所用的自然語言。沒有設定該域則認為實體內容將提供給所有的語言閱讀者。eg:Content-Language:da
3 Content-Length
用於指明實體正文的長度,以位元組方式儲存的十進位制數字來表示。
4 Content-Type
指明發送給接收者的實體正文的媒體型別。eg:Content-Type:text/html;charset=ISO-8859-1
5 Last-Modified
用於指示資源的最後修改日期和時間。
6 Expires
給出響應過期的日期和時間。為了讓代理伺服器或瀏覽器在一段時間以後更新快取中(再次訪問曾訪問過的頁面時,直接從快取中載入,縮短響應時間和降低伺服器負載)的頁面,我們可以使用Expires實體報頭域指定頁面過期的時間。eg:Expires:Thu,15 Sep 2006 16:23:12 GMT
HTTP1.1的客戶端和快取必須將其他非法的日期格式(包括0)看作已經過期。eg:為了讓瀏覽器不要快取頁面,我們也可以利用Expires實體報頭域,設定為0,jsp中程式如下:response.setDateHeader("Expires","0");
Firebug工具
Firebug集HTML檢視和編輯、Javascript控制檯、網路狀況監視於一體,可以說是開發人員必備擴充套件之一。Firebug從各個不同的角度剖析 Web頁面內部的細節層面,給Web開發者帶來很大的便利。
開啟火狐瀏覽器,選擇選單中的“工具”—>“附加元件”中搜索Firebug進行安裝,安裝過程很簡單。安裝完成之後,開啟火狐瀏覽器,右下角有個標記,點選即開啟firebug除錯,這裡http抓包選擇上面的網路標籤,現在開啟任何一個網址,即可抓到請求和響應包,進而可以檢視各種資訊。
(1) 開啟百度頁面:
從上圖可以看到傳送的請求數已經伺服器響應狀態機響應時間等資料。分析本次操作可以看到GET方式訪問www.baidu.com,伺服器響應狀態200 OK 使用時間297ms。
點選上圖中的第一行,可以看到本次請求和響應的頭資訊:
將滑鼠放到時間軸上,可以看到請求和響應的各部分時間花費:
由上面請求和響應結果分析,根據不同的響應資訊頭分析,我們可以清楚知道伺服器在不同的請求或者相同請求下做的不同或者相同的事情,以及伺服器在響應不同請求時的狀態資訊,可以幫助清楚判斷到底哪一部分出現了問題,對我們解決實際問題很有幫助。同時我們也可以通過解讀各部分時間花費來判斷網路或者伺服器的情況。
(2)開啟一個根本不存在的頁面(頁面地址:http://www.google.com.hk/s.html):從上圖可以看到,這個頁面根本不存在,如果在實際開發中發現這個錯誤,就證明這個目錄下沒有這個檔案或資源。由此可見,對任何一種響應狀態的分析都是很有意義的,對我們的開發有很大的幫助。