Java 去除utf-8型別的空格的方法

阿新 • • 發佈：2019-01-06

問題產生

最近遇到一個這樣的問題，在生成的報文中，某個欄位資訊後面有一個空格，在程式碼中trim()下，它仍然存在。到底什麼原因呢？

問題的根源

　　經過多番查證，是由於utf-8中的特俗字元造成的。

　　問題的根源，在於UTF-8這種編碼裡面，存在一個特殊的字元，其編碼是“0xC2 0xA0”，轉換成字元的時候，表現為一個空格，跟一般的半形空格（ASCII 0x20）一樣，唯一的不同是它的寬度不會被壓縮，因此比較多的被用於網頁排版（如首行縮排之類）。而其他的編碼方式如GB2312、Unicode之類並沒有這樣的字元，因此如果簡單地進行編碼轉換，生成地GB2312/Unocode字串中，這個字元就會被替換成為問號（ASCII ox3F）。

　　使用UTF-8進行HTMLDecode的時候，對於語句開頭的（ ），就會被自動轉換成為這個特殊的空格，可能是判斷為放在開頭的空格，一定是用來排版的。在轉換為其他編碼之前，這個特殊的空格受到的待遇與普通的半形空格是一致的，甚至也會被trim()去掉。

因此，碰到這個問題的原因有兩種：一種是在UTF-8編碼下進行了轉換，產生了這個字元；還有一種就是網頁中直接採用了這個字元進行排版。

問題解決之法

byte[] space = new byte[]{0xc2,0xa0};      
string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space);      
HtmlStr = HtmlStr.Replace(UTFSpace," ");

Java:

byte bytes[] = {(byte) 0xC2,(byte) 0xA0};
String UTFSpace = new String(bytes,"utf-8");
html = html.replaceAll(UTFSpace, " ");

注意：需要強調的是，替換之前不能進行編碼轉換，一定要繼續使用UTF-8編碼。如果已經轉換成其他編碼，那麼錯誤就已經不可逆轉了。沒有辦法再區分這個錯誤的問號和正常的問號之間的差別了。

Java 去除utf-8型別的空格的方法

Java 去除utf-8型別的空格的方法

Java中utf-8格式字符串的存儲方法。

JAVA以UTF-8編碼格式匯出CSV檔案，用office開啟產生亂碼的解決方法

JAVA以UTF-8匯出CSV檔案，用excel開啟產生亂碼的解決方法

Java以UTF-8編碼讀寫檔案

【asp】asp網頁utf-8亂碼解決方法

java去除字串中多餘空格，只留一個

java去除字串中的空格\t、回車\n、換行符\r、製表符\t

轉載：解決採集UTF-8網頁空格變成問號亂碼

J2ME讀取UTF-8編碼檔案方法

Java 去除字串中的空格、回車、換行符、製表符

Java讀取UTF-8格式txt檔案第一行出現亂碼——問號“?”及解決

java輸出utf-8的csv檔案時，檔案中有中文，excel開啟檔案亂碼問題解決

java去除字串中的空格、回車、換行符、製表符

java以UTF-8編碼寫入文字檔案

Java中去除字串中所有空格的幾種方法

弄懂進位制、bit、java基本資料型別（byte、short、int 、char 、String）、ASCII、Unicode、UTF-8、UTF-16的關聯關係及UTF-8、UTF-16編碼原理

Java讀取Unicode檔案（UTF-8等）時碰到的BOM首字元問題，及處理方法

Java 的亂碼解決方法統一編碼UTF-8

Java 的亂碼解決方法統一編碼這裡使用UTF-8編碼

Java 去除utf-8型別的空格的方法

相關推薦