Web開發須知:URL編碼與解碼
通常如果一樣東西需要編碼,說明這樣東西並不適合傳輸。原因多種多樣,如Size過大,包含隱私資料,對於Url來說,之所以要進行編碼,是因為Url中有些字元會引起歧義。
例如,Url引數字串中使用key=value鍵值對這樣的形式來傳參,鍵值對之間以&符號分隔,如/s?q=abc& ie=utf-8。如果你的value字串中包含了=或者&,那麼勢必會造成接收Url的伺服器解析錯誤,因此必須將引起歧義的&和= 符號進行轉義,也就是對其進行編碼。
又如,Url的編碼格式採用的是ASCII碼,而不是Unicode,這也就是說你不能在Url中包含任何非ASCII字元,例如中文。否則如果客戶端瀏覽器和服務端瀏覽器支援的字符集不同的情況下,中文可能會造成問題。
Url編碼的原則就是使用安全的字元(沒有特殊用途或者特殊意義的可列印字元)去表示那些不安全的字元。
預備知識:URI是統一資源標識的意思,通常我們所說的URL只是URI的一種。典型URL的格式如下所示。下面提到的URL編碼,實際上應該指的是URI編碼。
哪些字元需要編碼
foo:
//example.com:8042/over/there?name=ferret#nose
\_/ \______________/ \________/\_________/ \__/
| | | | |
scheme authority path query fragment
RFC3986文件規定,Url中只允許包含英文字母(a-zA-Z)、數字(0-9)、-_.~4個特殊字元以及所有保留字元。 RFC3986文件對Url的編解碼問題做出了詳細的建議,指出了哪些字元需要被編碼才不會引起Url語義的轉變,以及對為什麼這些字元需要編碼做出了相 應的解釋。
US-ASCII字符集中沒有對應的可列印字元:Url中只允許使用可列印字元。US-ASCII碼中的10-7F位元組全都表示控制字元,這些 字元都不能直接出現在Url中。同時,對於80-FF位元組(ISO-8859-1),由於已經超出了US-ACII定義的位元組範圍,因此也不可以放在 Url中。
保留字元:Url可以劃分成若干個元件,協議、主機、路徑等。有一些字元(:/?#[]@)是用作分隔不同元件的。例如:冒號用於分隔協議和主 機,/用於分隔主機和路徑,?用於分隔路徑和查詢引數,等等。還有一些字元(!$&'()*+,;=)用於在每個元件中起到分隔作用的,如=用於 表示查詢引數中的鍵值對,&符號用於分隔查詢多個鍵值對。當元件中的普通資料包含這些特殊字元時,需要對其進行編碼。
RFC3986中指定了以下字元為保留字元:! * ' ( ) ; : @ & = + $ , / ? # [ ]
不安全字元:還有一些字元,當他們直接放在Url中的時候,可能會引起解析程式的歧義。這些字元被視為不安全字元,原因有很多。
- 空格:Url在傳輸的過程,或者使用者在排版的過程,或者文字處理程式在處理Url的過程,都有可能引入無關緊要的空格,或者將那些有意義的空格給去掉。
- 引號以及<>:引號和尖括號通常用於在普通文字中起到分隔Url的作用
- #:通常用於表示書籤或者錨點
- %:百分號本身用作對不安全字元進行編碼時使用的特殊字元,因此本身需要編碼
- {}|\^[]`~:某一些閘道器或者傳輸代理會篡改這些字元
需要注意的是,對於Url中的合法字元,編碼和不編碼是等價的,但是對於上面提到的這些字元,如果不經過編碼,那麼它們有可能會造成Url語義 的不同。因此對於Url而言,只有普通英文字元和數字,特殊字元$-_.+!*'()還有保留字元,才能出現在未經編碼的Url之中。其他字元均需要經過 編碼之後才能出現在Url中。
但是由於歷史原因,目前尚存在一些不標準的編碼實現。例如對於~符號,雖然RFC3986文件規定,對於波浪符號~,不需要進行Url編碼,但是還是有很多老的閘道器或者傳輸代理會進行編碼。
如何對Url中的非法字元進行編碼
Url編碼通常也被稱為百分號編碼(Url Encoding,also known as percent-encoding),是因為它的編碼方式非常簡單,使用%百分號加上兩位的字元——0123456789ABCDEF——代表一個位元組的 十六進位制形式。Url編碼預設使用的字符集是US-ASCII。例如a在US-ASCII碼中對應的位元組是0x61,那麼Url編碼之後得到的就 是%61,我們在位址列上輸入http://g.cn/search?q=%61%62%63,實際上就等同於在google上搜索abc了。又如@符號 在ASCII字符集中對應的位元組為0x40,經過Url編碼之後得到的是%40。
對於非ASCII字元,需要使用ASCII字符集的超集進行編碼得到相應的位元組,然後對每個位元組執行百分號編碼。對於Unicode字 符,RFC文件建議使用utf-8對其進行編碼得到相應的位元組,然後對每個位元組執行百分號編碼。如"中文"使用UTF-8字符集得到的位元組為0xE4 0xB8 0xAD 0xE6 0x96 0x87,經過Url編碼之後得到"%E4%B8%AD%E6%96%87"。
如果某個位元組對應著ASCII字符集中的某個非保留字元,則此位元組無需使用百分號表示。例如"Url編碼",使用UTF-8編碼得到的位元組是 0x55 0x72 0x6C 0xE7 0xBC 0x96 0xE7 0xA0 0x81,由於前三個位元組對應著ASCII中的非保留字元"Url",因此這三個位元組可以用非保留字元"Url"表示。最終的Url編碼可以簡化 成"Url%E7%BC%96%E7%A0%81" ,當然,如果你用"%55%72%6C%E7%BC%96%E7%A0%81"也是可以的。
由於歷史的原因,有一些Url編碼實現並不完全遵循這樣的原則,下面會提到。
Javascript中的escape, encodeURI和encodeURIComponent的區別
Javascript中提供了3對函式用來對Url編碼以得到合法的Url,它們分別是escape / unescape, encodeURI / decodeURI和encodeURIComponent / decodeURIComponent。由於解碼和編碼的過程是可逆的,因此這裡只解釋編碼的過程。
這三個編碼的函式——escape,encodeURI,encodeURIComponent——都是用於將不安全不合法的Url字元轉換為合法的Url字元表示,它們有以下幾個不同點。
安全字元不同:
下面列出了這三個函式的安全字元(即函式不會對這些字元進行編碼)
- escape(69個):*/@+-._0-9a-zA-Z
- encodeURI(82個):!#$&'()*+,/:;[email protected]_~0-9a-zA-Z
- encodeURIComponent(71個):!'()*-._~0-9a-zA-Z
相容性不同:escape函式是從Javascript 1.0的時候就存在了,其他兩個函式是在Javascript 1.5才引入的。但是由於Javascript 1.5已經非常普及了,所以實際上使用encodeURI和encodeURIComponent並不會有什麼相容性問題。
對Unicode字元的編碼方式不同:這三個函式對於ASCII字元的編碼方式相同,均是使用百分號+兩位十六進位制字元來表示。但是對於 Unicode字元,escape的編碼方式是%uxxxx,其中的xxxx是用來表示unicode字元的4位十六進位制字元。這種方式已經被W3C廢棄 了。但是在ECMA-262標準中仍然保留著escape的這種編碼語法。encodeURI和encodeURIComponent則使用UTF-8對 非ASCII字元進行編碼,然後再進行百分號編碼。這是RFC推薦的。因此建議儘可能的使用這兩個函式替代escape進行編碼。
適用場合不同:encodeURI被用作對一個完整的URI進行編碼,而encodeURIComponent被用作對URI的一個元件進行編 碼。從上面提到的安全字元範圍表格來看,我們會發現,encodeURIComponent編碼的字元範圍要比encodeURI的大。我們上面提到過, 保留字元一般是用來分隔URI元件(一個URI可以被切割成多個元件,參考預備知識一節)或者子元件(如URI中查詢引數的分隔符),如:號用於分隔 scheme和主機,?號用於分隔主機和路徑。由於encodeURI操縱的物件是一個完整的的URI,這些字元在URI中本來就有特殊用途,因此這些保 留字元不會被encodeURI編碼,否則意義就變了。
元件內部有自己的資料表示格式,但是這些資料內部不能包含有分隔元件的保留字元,否則就會導致整個URI中元件的分隔混亂。因此對於單個元件使用encodeURIComponent,需要編碼的字元就更多了。
表單提交
當Html的表單被提交時,每個表單域都會被Url編碼之後才在被髮送。由於歷史的原因,表單使用的Url編碼實現並不符合最新的標準。例如對 於空格使用的編碼並不是%20,而是+號,如果表單使用的是Post方法提交的,我們可以在HTTP頭中看到有一個Content-Type的 header,值為application/x-www-form-urlencoded。大部分應用程式均能處理這種非標準實現的Url編碼,但是在客 戶端Javascript中,並沒有一個函式能夠將+號解碼成空格,只能自己寫轉換函式。還有,對於非ASCII字元,使用的編碼字符集取決於當前文件使 用的字符集。例如我們在Html頭部加上
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
這樣瀏覽器就會使用gb2312去渲染此文件(注意,當HTML文件中沒有設定此meta標籤,則瀏覽器會根據當前使用者喜好去自動選擇字符集,使用者也可以強制當前網站使用某個指定的字符集)。當提交表單時,Url編碼使用的字符集就是gb2312。
之前在使用Aptana(為什麼專指aptana下面會提到)遇到一個很迷惑的問題,就是在使用encodeURI的時候,發現它編碼得到的結果和我想的很不一樣。下面是我的示例程式碼:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
</head>
<body>
<script type="text/javascript">
document.write(encodeURI("中文"));
</script>
</body>
</html>
執行結果輸出%E6%B6%93%EE%85%9F%E6%9E%83。顯然這並不是使用UTF-8字符集進行Url編碼得到的結果(在Google上搜索"中文",Url中顯示的是%E4%B8%AD%E6%96%87)。
所以我當時就很質疑,難道encodeURI還跟頁面編碼有關,但是我發現,正常情況下,如果你使用gb2312進行Url編碼也不會得到這個結果的才是。後來終於被我發現,原來是頁面檔案儲存使用的字符集和Meta標籤中指定的字符集不一致導致的問題。Aptana的編輯器預設情況下使用UTF-8字符集。也就是說這個檔案實際儲存的時候使用的是UTF-8字符集。但是由於Meta標籤中指定了gb2312,這個時候,瀏覽器就會按照gb2312去解析這個文件,那麼自然在"中文"這個字串這裡就會出錯,因為"中文"字串用UTF-8編碼過後得到的位元組是0xE4 0xB8 0xAD 0xE6 0x96 0x87,這6個位元組又被瀏覽器拿gb2312去解碼,那麼就會得到另外三個漢字"涓枃"(GBK中一個漢字佔兩個位元組),這三個漢字在傳入encodeURI函式之後得到的結果就是%E6%B6%93%EE%85%9F%E6%9E%83。因此,encodeURI使用的還是UTF-8,並不會受到頁面字符集的影響。
對於包含中文的Url的處理問題,不同瀏覽器有不同的表現。例如對於IE,如果你勾選了高階設定"總是以UTF-8傳送Url",那麼Url中的路徑部分的中文會使用UTF-8進行Url編碼之後傳送給服務端,而查詢引數中的中文部分使用系統預設字符集進行Url編碼。為了保證最大互操作性,建議所有放到Url中的元件全部顯式指定某個字符集進行Url編碼,而不依賴於瀏覽器的預設實現。
另外,很多HTTP監視工具或者瀏覽器位址列等在顯示Url的時候會自動將Url進行一次解碼(使用UTF-8字符集),這就是為什麼當你在Firefox中訪問Google搜尋中文的時候,位址列顯示的Url包含中文的緣故。但實際上傳送給服務端的原始Url還是經過編碼的。你可以在位址列上使用Javascript訪問location.href就可以看出來了。在研究Url編解碼的時候千萬別被這些假象給迷惑了。
以上轉自: http://kb.cnblogs.com/page/133765/
下面,我們來個例項:
一、線上直接進行URL可以通過該網站:
http://tool.chinaz.com/Tools/URLEncode.aspx
二、通過程式來實現、
package com.souvc.test; import java.io.UnsupportedEncodingException; import java.net.URLDecoder; import java.net.URLEncoder; /** * 類名: URLEncodeTest </br> * 描述: 把URL 編碼或是解碼 </br> * 開發人員: souvc </br> * 建立時間: 2015-11-30 </br> * 釋出版本:V1.0 </br> */ public class URLEncodeTest { public static void main(String[] args) { String URL ="http://www.souvc.com/oauthServlet"; System.out.println(urlEncodeUTF8(URL)); System.out.println(urlEncodeGb2312(URL)); System.out.println(urlDecodeUTF8("http%3A%2F%2Fwww.souvc.com%2FoauthServlet")); System.out.println(urlDecodeGb2312("http%3A%2F%2Fwww.souvc.com%2FoauthServlet")); } /** * 方法名:urlEncodeUTF8</br> * 詳述: URL 編碼 </br> * 開發人員:souvc </br> * 建立時間:2015-11-30 </br> * @param source * @return * @throws */ public static String urlEncodeUTF8(String URL) { String result = URL; try { result = URLEncoder.encode(URL, "UTF-8"); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } return result; } /** * 方法名:urlDecodeUTF8</br> * 詳述:URL 解碼 </br> * 開發人員:souvc </br> * 建立時間:2015-11-30 </br> * @param URL * @return * @throws */ public static String urlDecodeUTF8(String URL) { String result = ""; try { result = URLDecoder.decode(URL, "UTF-8"); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } return result; } /** * 方法名:urlDecodeGb2312</br> * 詳述:URL 解碼</br> * 開發人員:souvc </br> * 建立時間:2015-11-30 </br> * @param URL * @return * @throws */ public static String urlDecodeGb2312(String URL) { String result = ""; try { result = URLDecoder.decode(URL, "gb2312"); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } return result; } /** * 方法名:urlEncodeGb2312</br> * 詳述:URL 編碼 </br> * 開發人員:souvc </br> * 建立時間:2015-11-30 </br> * @param URL * @return * @throws */ public static String urlEncodeGb2312(String URL) { String result = URL; try { result = URLEncoder.encode(URL, "gb2312"); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } return result; } }
相關推薦
Web開發須知:URL編碼與解碼
通常如果一樣東西需要編碼,說明這樣東西並不適合傳輸。原因多種多樣,如Size過大,包含隱私資料,對於Url來說,之所以要進行編碼,是因為Url中有些字元會引起歧義。 例如,Url引數字串中使用key=value鍵值對這樣的形式來傳參,鍵值對之間以&符號分隔,如/s?q=abc& ie=u
python接口自動化測試十三:url編碼與解碼
str 技術 bsp key 接口自動化測試 info pytho print 自動化測試 # url編碼與解碼 from urllib import parse url = ‘http://zzk.cnblogs.com/s/blogpost?Keywords=中文‘ a
js對url編碼與解碼
在前端工作中,偶爾會遇到url的編碼與解碼,比如:在微信授權登入的時候,需要將url進行編碼寫入,再比如:在PC端顯示小表情的時候,會用到對url解碼解析表情。那麼,有哪些編碼解碼方式呢,常用的是哪些呢? 1.為什麼要URL編碼 在因特網上傳送URL,只能採用
Url編碼與解碼
package charset;import java.io.UnsupportedEncodingException;import org.apache.commons.codec.CharEncod
處理URL編碼與解碼
Python url編碼: urllib.quote(url)#沒有對“/”進行處理 urllib.quote_plus(url) url解碼: urllib.unquote(url)#
java中的url 編碼與解碼
下面就是它的輸出。需要注意的是這些程式碼應該以其他編碼形式被儲存而不是以ASCII碼的形式,還有就是你選擇的編碼形式應該作為一個引數傳給編譯器,讓編譯器能據此對原始碼中的非ASCII字元作出正確的解釋。 % javac -encoding UTF8 EncoderTest % java Enco
URL編碼與解碼原理
通常如果一樣東西需要編碼,說明這樣東西並不適合傳輸。原因多種多樣,如Size過大,包含隱私資料,對於Url來說,之所以要進行編碼,是因為Url中有些字元會引起歧義。 例如,Url引數字串中使用key=value鍵值對這樣的形式來傳參,鍵值對之間以&
URL編碼與解碼(使用 Python3 urllib.parse) 與 貼吧小爬蟲案例
parse 頁碼 這樣的 5.0 put 傳遞 range 通過 組合 一.parse.urlencode() 與parse.unquote() urllib 和urllib.request都是接受URL請求的相關模塊,但是提供了不同的功能。兩個最顯著的不同如下: 1.ur
分享《Flask Web開發實戰:入門、進階與原理解析》PDF+源代碼
1.0 baidu rip 更多 aid size log fff web 下載:https://pan.baidu.com/s/1gbC5uhh_vjVbDk55_p7SOA 更多資料分享:http://blog.51cto.com/3215120 《Flask Web開
《Flask Web開發實戰:入門、進階與原理解析》PDF+原始碼
下載:https://pan.baidu.com/s/1gbC5uhh_vjVbDk55_p7SOA 更多資料分享:http://blog.51cto.com/3215120 《Flask Web開發實戰:入門、進階與原理解析》PDF,帶目錄書籤,文字可以複製貼上;配套原始碼。 一本面向Python程式
RapidJSON 程式碼剖析(三):Unicode 的編碼與解碼
8.1 Character Encoding JSON text SHALL be encoded in UTF-8, UTF-16, or UTF-32. The default encoding is UTF-8, and JSON texts that are encoded in UTF-8 a
python 字元編碼與解碼——unicode、str和中文:UnicodeDecodeError: 'ascii' codec can't decode
摘要:在進行python指令碼的編寫時,如果我們用python來處理網頁資料或者進行與中文字元有關的處理工作,經常出現這樣的出錯資訊:SyntaxError: Non-ASCII character '\xe6' in file ./filename.py on line
全排列的編碼與解碼:康託展開
一、康託展開:全排列到一個自然數的雙射 X=an*(n-1)!+an-1*(n-2)!+...+ai*(i-1)!+...+a2*1!+a1*0!,ai為整數,並且0<=ai<i(1<=i<=n) 適用範圍:沒有重複元素的全排列 二、
【APACHE MINA2.0開發之二】自定義實現SERVER/CLIENT端的編解碼工廠(自定義編碼與解碼器)!
在上一篇博文中已經簡單介紹過“過濾器”的概念,那麼在Mina 中的協議編解碼器通過過濾器 ProtocolCodecFilter 構造,這個過濾器的構造方法需 要一個 ProtocolCodecFactory,這從前面註冊 TextLineCodecFactory 的程式碼就可以看出來。 Protoc
Web開發須知的瀏覽器內幕 快取與儲存篇(2)
3. HTTP Cache 綜述 HTTP Cache是完全按照IETF規範實現的,最新的RFC規範地址是 https://tools.ietf.org/html/rfc7234。它的作用就是儲存可快取的響應以備重新使用,在下次請求時可減少響應
《Flask Web開發實戰:入門、進階與原理解析(李輝著 )》PDF+源代碼
同時 下載 第一部分 ebs 提取 項目 程序開發 圖片 bubuko 一句話評價: 這可能是市面上(包括國外出版的)你能找到最好的講Flask的書了 下載:鏈接: https://pan.baidu.com/s/1ioEfLc7Hc15jFpC-DmEYBA 提取碼:
編碼與解碼
文本 也有 文件的 一位 pri 一行 word 終端 二進制位 編碼:真實字符與二進制串的對應關系,真實字符→二進制串 解碼:二進制串與真實字符的對應關系,二進制串→真實字符 首先,明確一點,計算機中存儲的信息都是二進制的 編碼/解碼本質上是一種映射(對應關系),比如
【Python】 Web開發框架的基本概念與開發的準備工作
世紀 依賴包 ade 並不是 模板 界面 inux tar cal Web框架基本概念 現在再來寫這篇文章顯然有些馬後炮的意思。不過正是因為已經學習了Flask框架, 並且未來計劃學習更加體系化的Django框架,在學習過程中碰到的很多術語等等,非常有必要通過這樣一篇
張高興的 Xamarin.Forms 開發筆記:為 Android 與 iOS 引入 UWP 風格的漢堡菜單 ( MasterDetailPage )
操作 using eat stp 取消 height 新建 屬性 turn 所謂 UWP 樣式的漢堡菜單,我曾在“張高興的 UWP 開發筆記:漢堡菜單進階”裏說過,也就是使用 Segoe MDL2 Assets 字體作為左側 Icon,並且左側使用填充顏色的矩形用來表示
從Python的角度來看編碼與解碼
異常 字符 default 疑問 習慣 中文字符集 nbsp prompt ans 導語: Python2和Python3中,因為默認字符集的不同而造成的麻煩,簡直是程序員的夢魘!要徹底告別這個麻煩,就需要從本質上來理解編碼和解碼。 為什麽要有編碼? 對於不會英文的中國