htmlentities、urlencode、rawurlencode、escape、encodeURI、encodeRUIComponent辨析
1、javascript中,“escape”、“unescape”函式採用ISO Latin字符集對指定字串進行編碼。所有的空格符、標點符號、特殊字元以及其他非ASCII字元都將被轉化成%xx格式的字元編碼(xx等於該字元在字符集表裡面的編碼的16進位制數字)。比如,空格符對應的編碼是%20。unescape方法與此相反。不會被此方法編碼的字元: @ * / +
2、javascript中,“encodeURI”、“decodeURI”將指定字串採用UTF-8編碼格式轉化成escape格式的字串(或把escape格式的字串轉化為UTF-8編碼)。不會被此方法編碼的字元:! @ # $& * ( ) = : / ; ? + '
3、javascript中,“encodeURIComponent”函式把URI字串採用UTF-8編碼格式轉化成escape格式的字串。與encodeURI()相比,這個方法將對更多的字元進行編碼,比如 / :?;等字元,不會被此方法編碼的字元:! * ( ) 。所以encodeURIComponent可以用於下面這種情況,某URL http://www.baidu.com?url=XXXX,其中XXXX也是一個連結,這時應該用encodeURIComponent對XXXX編碼 ,注:encodeURIComponent編碼後的URI不可訪問
4、php中“urlencode”、“urldecode”、“rawurlencode”、“rawurldecode”函式基本上等效於javascript中encodeURI系列函式,區別只是部分特殊字元是否進行編碼的問題
5、php中,“htmlentities”、“htmlspecialchars”等html相關編碼函式,主要的目的是將在HTML語言中有特殊用途的字元或不可見字元(空格預設最多隻會連續輸出一個),如“<”、“>”、“空格”等以html編碼進行轉換,以便在頁面中輸出這些字元。
6、對於中文字串來說,如果不希望把字串編碼格式轉化成UTF-8格式的(比如原頁面和目標頁面的charset是一致的時候),只需要使用escape。如果你的頁面是GB2312或者其他的編碼,而接受引數的頁面是UTF-8編碼的,就要採用encodeURI或者encodeURIComponent。
關於XSS攻擊
1、將變數輸出到javascript中,如“<script>”標籤中等需要對變數使用引號包裹並進行javascript級別的編碼,如escape
2、將變數輸出到HTML中,如“innerHTML”,直接輸出等,需要對變數進行HTML編碼,如php的htmlentities
3、將變數先輸出到javascript中再使用javascript將組合後的變數輸出到HTML中,要在輸出到javascript時使用javascript編碼,並在輸出到HTML中時使用HTML編碼