java字元編碼

阿新 • • 發佈：2018-12-12

一、中文編碼避免亂碼

new String(getBytes(ISO-8859-1),UTF-8)來避免亂碼，當然UTF-8可以換成GBK，unicode。

tomcat預設全部都是用ISO-8859-1編碼,不管你頁面用什麼顯示,Tomcat最終還是會替你將所有字元轉做ISO-8859-1.

在Java中，String的getBytes()方法是得到一個作業系統預設的編碼格式的位元組陣列。

String.getBytes(String decode)方法會根據指定的decode編碼返回某字串在該編碼下的byte陣列表示

有時候，為了讓中文字元適應某些特殊要求（如http header頭要求其內容必須為iso8859-1編碼）和tomcat中全部用ISO-8859-1編碼，可能會通過將中文字元按照位元組方式來編碼的情況，如

String s_iso88591 = new String("深".getBytes("UTF-8"),"ISO8859-1")，

這樣得到的s_iso8859-1字串實際是三個在 ISO8859-1中的字元，在將這些字元傳遞到目的地後，目的地程式再通過相反的方式String s_utf8 = new String(s_iso88591.getBytes("ISO8859-1"),"UTF-8")來得到正確的中文漢字“深”。這樣就既保證了遵守協議規定、也支援中文。

二、new String(str.getBytes(“***”),“”)的實現

如果是new String(str.getBytes(“gbk”),“gbk”)時，可以分為兩步：

第一步：byte[] bytes=str.getBytes(“gbk”)

告訴java虛擬機器將中文以“gbk”的方式轉換為位元組陣列。一個漢字對應兩個位元組。

第二步：String s=new String(bytes,“gbk”) // 執行後的s就是第一步的str。

告訴虛擬機器將位元組陣列中的位元組以“gbk”的方式將每2個位元組組裝成一個漢字。此漢字s就是第一步str代表的漢字。

三、編碼異常UnsupportedEncodingException

例如new(s.getBytes("ISO-8859-1"), "GB2312");的構造方法為public String(byte[] bytes, Charset charset)通過使用指定的 charset 解碼指定的 byte 陣列，構造一個新的 String。新 String 的長度是字符集的函式，因此可能不等於 byte 陣列的長度。此方法總是使用此字符集的預設替代字串替代錯誤輸入和不可對映字元序列。如果需要對解碼過程進行更多控制，則應該使用 CharsetDecoder 類。

因此進行編碼都會先丟擲UnsupportedEncodingException異常

    import java.io.UnsupportedEncodingException;
	public static void main(String[] args) throws UnsupportedEncodingException {
		String path = "f:/assa/a.xlsx";
		int index = path.lastIndexOf("/");
		String name = path.substring(index);
		String x = new String(name.getBytes(), "ISO-8859-1");
		System.out.println(x);

	}

java字元編碼

java字元編碼

Java字元編碼詳解

Java字元編碼知識簡介 .

Java工具類-轉換字元編碼

Java工具類-設定字元編碼

Java記憶體中的字元編碼

NCR字元編碼（形如中国）轉換為漢字 in JAVA

字元編碼和Java中的亂碼問題

CMD執行JAVA出現編碼GBK的不可對映字元處理方法

Java之路：字元編碼

Java——I/O（字元編碼、記憶體流、列印流、System、輸入流、序列化）

Day 9——java多執行緒2及字元編碼集合

Java IO4：字元編碼

java網路傳輸字元編碼亂碼解決

JAVA中文編碼和中文字元長度問題和解決方案

Java不同編碼方式，中英文字元所佔位元組數

JAVA初窺：字元編碼

JS 和 Java 中URL特殊字元編碼方式

Java為什麼選擇unicode字符集？字元編碼的那些事

JAVA中文字元編碼問題詳解

java字元編碼

相關推薦