1. 程式人生 > >處理tomcat中文亂碼問題

處理tomcat中文亂碼問題

在JSP/Servlet 中主要有以下幾個地方可以設定編碼,pageEncoding="UTF-8"、contentType="text/html;charset=UTF -8"、request.setCharacterEncoding("UTF-8")和response.setCharacterEncoding ("UTF-8"),其中前兩個只能用於JSP中,而後兩個可以用於JSP和Servlet中。

1、pageEncoding="UTF-8"的作用是設定JSP編譯成Servlet時使用的編碼。

眾所周知,JSP在伺服器上是要先被編譯成Servlet的。pageEncoding="UTF-8"的作用就是告訴JSP編譯器在將JSP檔案編譯成Servlet時使用的編碼。通常,在JSP內部定義的字串(直接在JSP中定義,而不是從瀏覽器提交的資料)出現亂碼時,很多都是由於該引數設定錯誤引起的。例如,你的JSP檔案是以GBK為編碼儲存的,而在JSP中卻指定pageEncoding="UTF-8",就會引起JSP內部定義的字串為亂碼。

另外,該引數還有一個功能,就是在JSP中不指定contentType引數,也不使用response.setCharacterEncoding方法時,指定對伺服器響應進行重新編碼的編碼。

2、contentType="text/html;charset=UTF-8"的作用是指定對伺服器響應進行重新編碼的編碼。

在不使用response.setCharacterEncoding方法時,用該引數指定對伺服器響應進行重新編碼的編碼。伺服器在將資料傳送到瀏覽器前,對資料進行重新編碼時,使用的就是該編碼。

3、request.setCharacterEncoding("UTF-8")的作用是設定對客戶端請求進行重新編碼的編碼。

該方法用來指定對瀏覽器傳送來的資料進行重新編碼(或者稱為解碼)時,使用的編碼。

4、response.setCharacterEncoding("UTF-8")的作用是指定對伺服器響應進行重新編碼的編碼。

伺服器在將資料傳送到瀏覽器前,對資料進行重新編碼時,使用的就是該編碼。

其次,要說一說瀏覽器是怎麼樣對接收和傳送的資料進行編碼的

response.setCharacterEncoding("UTF-8")的作用是指定對伺服器響應進行重新編碼的編碼。同時,瀏覽器也是根據這個引數來對其接收到的資料進行重新編碼(或者稱為解碼)。所以在無論你在JSP中設定response.setCharacterEncoding ("UTF-8")或者response.setCharacterEncoding("GBK"),瀏覽器均能正確顯示中文(前提是你傳送到瀏覽器的資料編碼是正確的,比如正確設定了pageEncoding引數等)。讀者可以做個實驗,在JSP中設定 response.setCharacterEncoding("UTF-8"),在IE中顯示該頁面時,在IE的選單中選擇"檢視(V)"à"編碼 (D)"中可以檢視到是" Unicode(UTF-8)",而在在JSP中設定response.setCharacterEncoding ("GBK"),在IE中顯示該頁面時,在IE的選單中選擇"檢視(V)"à"編碼(D)"中可以檢視到是"簡體中文(GB2312)"。

瀏覽器在傳送資料時,對URL和引數會進行URL編碼,對引數中的中文,瀏覽器也是使用response.setCharacterEncoding引數來進行URL編碼的。以百度和GOOGLE為例,如果你在百度中搜索"漢字",百度會將其編碼為"%BA%BA%D7%D6"。而在GOOGLE中搜索 "漢字",GOOGLE會將其編碼為"%E6%B1%89%E5%AD%97",這是因為百度的 response.setCharacterEncoding引數為GBK,而GOOGLE的的 response.setCharacterEncoding引數為UTF-8。

瀏覽器在接收伺服器資料和傳送資料到伺服器時所使用的編碼是相同的,預設情況下均為JSP頁面的response.setCharacterEncoding引數(或者contentType和 pageEncoding引數),我們稱其為瀏覽器編碼。當然,在IE中可以修改瀏覽器編碼(在IE的選單中選擇"檢視(V)"à"編碼(D)"中修改),但通常情況下,修改該引數會使原本正確的頁面中出現亂碼。一個有趣的例子是,在IE中瀏覽GOOGLE的主頁時,將瀏覽器編碼修改為"簡體中文(GB2312)",此時,頁面上的中文會變成亂碼,不理它,在文字框中輸入"漢字",提交,GOOGLE會將其編碼為"%BA%BA%D7%D6",可見,瀏覽器在對中文進行URL編碼時,使用的就是瀏覽器編碼。

弄清了瀏覽器是在接收和傳送資料時,是如何對資料進行編碼的了,我們再來看看伺服器是在接收和傳送資料時,是如何對資料進行編碼的。

對於傳送資料,伺服器按照response.setCharacterEncoding—contentType—pageEncoding的優先順序,對要傳送的資料進行編碼。

對於接收資料,要分三種情況。一種是瀏覽器直接用URL提交的資料,另外兩種是用表單的GET和POST方式提交的資料。

因為各種WEB伺服器對這三種方式的處理也不相同,所以我們以Tomcat5.0為例。

無論使用那種方式提交,如果引數中包含中文,瀏覽器都會使用當前瀏覽器編碼對其進行URL編碼。

對於表單中POST方式提交的資料,只要在接收資料的JSP中正確request.setCharacterEncoding引數,即將對客戶端請求進行重新編碼的編碼設定成瀏覽器編碼,就可以保證得到的引數編碼正確。有寫讀者可能會問,那如何得到瀏覽器編碼呢?上面我們提過了,在預設請情況下,瀏覽器編碼就是你在響應該請求的JSP頁面中response.setCharacterEncoding設定的值。所以對於POST表單提交的資料,在獲得資料的JSP頁面中request.setCharacterEncoding要和生成提交該表單的JSP頁面的 response.setCharacterEncoding設定成相同的值。

對於URL提交的資料和表單中GET方式提交的資料,在接收資料的JSP中設定request.setCharacterEncoding引數是不行的,因為在Tomcat5.0中,預設情況下使用ISO- 8859-1對URL提交的資料和表單中GET方式提交的資料進行重新編碼(解碼),而不使用該引數對URL提交的資料和表單中GET方式提交的資料進行重新編碼(解碼)。要解決該問題,應該在Tomcat的配置檔案的Connector標籤中設定useBodyEncodingForURI或者 URIEncoding屬性,其中useBodyEncodingForURI引數表示是否用request.setCharacterEncoding 引數對URL提交的資料和表單中GET方式提交的資料進行重新編碼,在預設情況下,該引數為false(Tomcat4.0中該引數預設為true); URIEncoding引數指定對所有GET方式請求(包括URL提交的資料和表單中GET方式提交的資料)進行統一的重新編碼(解碼)的編碼。 URIEncoding和useBodyEncodingForURI區別是,URIEncoding是對所有GET方式的請求的資料進行統一的重新編碼(解碼),而useBodyEncodingForURI則是根據響應該請求的頁面的request.setCharacterEncoding引數對資料進行的重新編碼(解碼),不同的頁面可以有不同的重新編碼(解碼)的編碼。所以對於URL提交的資料和表單中GET方式提交的資料,可以修改 URIEncoding引數為瀏覽器編碼或者修改useBodyEncodingForURI為true,並且在獲得資料的JSP頁面中 request.setCharacterEncoding引數設定成瀏覽器編碼。

下面總結下,以Tomcat5.0為WEB伺服器時,如何防止中文亂碼。

1.對於同一個應用,最好統一編碼,推薦為UTF-8,當然GBK也可以。

2.正確設定JSP的pageEncoding引數

3.在所有的JSP/Servlet中設定contentType="text/html;charset=UTF-8"或response.setCharacterEncoding("UTF-8"),從而間接實現對瀏覽器編碼的設定。

4.對於請求,可以使用過濾器或者在每個JSP/Servlet中設定request.setCharacterEncoding("UTF-8")。同時,要修改Tomcat的預設配置,推薦將useBodyEncodingForURI引數設定為true,也可以將URIEncoding引數設定為 UTF-8(有可能影響其他應用,所以不推薦)。