1. 程式人生 > >Apache以及PHP的預設編碼問題解決(詳解)

Apache以及PHP的預設編碼問題解決(詳解)

如果你在網上搜索 “apache配置”,搜到的頁面大多都會建議你在httpd.conf中加上這麼一句:AddDefaultCharset GB2312。對於新手而且是隻用GB2312編碼的開發人來說,這麼做是ok的。但是如果要想使用UTF-8字符集的話,比如 在test.php檔案中需要有 meta http-equiv="Content-Type" content="text/html; charset=UTF-8" 這段程式碼。這時你再開啟瀏覽器訪問test.php頁面的話,你看到的是正確的頁面。但是如果實際上瀏覽器還是以GB2312編碼解釋從伺服器返回的response,為什麼呢?原因是瀏覽器是根據http
應答訊息頭部中的 Content-type: text/html; charset=GB2312 來決定使用何種編碼解釋應答,也就是說apache伺服器仍然用GB2312編碼傳遞資料。所以說如果apache的預設字符集被設定成了GB2312,即使在頁面中宣告使用UTF-8編碼,apache伺服器還是會按照GB2312編碼來傳送http response。沒關係,我們把AddDefaultCharset GB2312 改成 AddDefaultCharset UTF-8,看看什麼結果?如果你看到亂碼恭喜你,你還知道是亂碼問題;如果你看到是空白頁面,那麼你就慘了,你可能會以為這是其他什麼原因造成的,而不會從編碼的角度去考慮怎麼解決問題。這是為什麼?原因在於php
檔案本身是用系統字符集來編碼的,中文的windows XP都是用GB2312,每一個檔案頭部都有欄位指示該檔案是用何種方式編碼的。
apache接到瀏覽器的請求後,會讓php去解釋所請求的頁面,比如 test.phpphp會識別出test.php的編碼方式是GB2312(就像我們用javac編譯java原始檔時,編譯器預設用系統編碼讀原始檔裡的內容。如果原始檔不是用系統編碼來儲存的,可以用命令javac -encoding指定具體的編碼),把資料以GB2312的編碼格式傳遞給apache,而apache伺服器不會改變從php傳來的資料,只是在應答訊息頭部中把字符集設定成UTF-8Content-type: text/html; charset=UTF-8.
 也就是說你傳遞的是GB2312編碼的資料,而瀏覽器卻以UTF-8編碼來解釋應答訊息。由於UTF-83個位元組表示一個漢子,而普通的GB2312BIG5是兩個。頁面輸出時,由於上述原因,出現半個漢字的情況,這時該半個漢字會和的>結合成一個亂碼字,導致IE無法讀完的話,會發現實際上整個葉面全部已經輸出了。如果使用的是MozillaMozilla FirefoxSarafi的瀏覽器這不會造成這個問題,而是一堆亂碼。這是由於Firefox瀏覽器和IE解析網頁編碼的策略不同產生的。OK,我們把test.phpUTF-8儲存,再用瀏覽器訪問時,就沒有問題了。可這樣做,會使得apache目錄下的所有web應用只能用同一種編碼。如何搞定?解決辦法:首先,可以使用AddDefaultCharset off來關閉預設檔案編碼,這樣apache伺服器就不會在http應答訊息頭部設定charset,只是設定Content-type: text/html. 而瀏覽器就會依靠html檔案中設定的harset來決定編碼。其次,指令碼php.ini檔案中的default_charset = “UTF-8″作用同httpd.conf檔案,把該行註釋掉,使php自動識別檔案的編碼方式。這樣不論你用什麼編碼方式,只要test.php中的meta http-equiv=Content-Type” content=text/html; charset=UTF-8″ 與你test.php檔案編碼方式相同,就不會產生亂碼問題。使用者提交資料的編碼瀏覽器提交的字元編碼由客戶端的characher encoding決定。例如,當前瀏覽器的編碼是Gb2312,使用者提交資料後,無論apache設定的編碼方式是GB2312還是UTF-8,這時在伺服器端接收到的仍是以Gb2312編碼的資料。如果要在返回頁面上顯示使用者剛才提交的資料,而該頁面是用UTF-8編碼的或者要在資料庫中儲存的使用者提交的資料,而資料庫是UTF-8編碼的,那就要做字元轉換了。