java中unicode utf-8以及漢字之間的轉換工具類

阿新 • • 發佈：2018-12-30

1. 漢字字串與unicode之間的轉換

1.1 stringToUnicode

/**
 * 獲取字串的unicode編碼
 * 漢字“木”的Unicode 碼點為Ox6728
 *
 * @param s 木
 * @return \ufeff\u6728  \ufeff控制字元 用來表示「位元組次序標記（Byte Order Mark）」不佔用寬度
 * 在java中一個char是採用unicode儲存的 佔用2個位元組 比如 漢字木 就是 Ox6728 4bit+4bit+4bit+4bit=2位元組
 */
public static String stringToUnicode(String s) {
	try {
		StringBuffer out = new StringBuffer("");
		//直接獲取字串的unicode二進位制
		byte[] bytes = s.getBytes("unicode");
		//然後將其byte轉換成對應的16進製表示即可
		for (int i = 0; i < bytes.length - 1; i += 2) {
			out.append("\\u");
			String str = Integer.toHexString(bytes[i + 1] & 0xff);
			for (int j = str.length(); j < 2; j++) {
				out.append("0");
			}
			String str1 = Integer.toHexString(bytes[i] & 0xff);
			out.append(str1);
			out.append(str);
		}
		return out.toString();
	} catch (UnsupportedEncodingException e) {
		e.printStackTrace();
		return null;
	}
}

測試

    @Test
    public void testGetUnicode() throws Exception {
        String str = "木";
        String s = EncodeUtil.stringToUnicode(str);
        System.out.println(s);  //Ox6728
    }

1.2 unicodeToString

/**
     * Unicode轉 漢字字串
     *
     * @param str \u6728
     * @return '木' 26408
     */
public static String unicodeToString(String str) {

	Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");
	Matcher matcher = pattern.matcher(str);
	char ch;
	while (matcher.find()) {
		//group 6728
		String group = matcher.group(2);
		//ch:'木' 26408
		ch = (char) Integer.parseInt(group, 16);
		//group1 \u6728
		String group1 = matcher.group(1);
		str = str.replace(group1, ch + "");
	}
	return str;
}

測試

    @Test
    public void testUnicodeToString() throws Exception {
        String str = "\\u6728";
        String s = EncodeUtil.unicodeToString(str);
        System.out.println(s);  //木
    }

2. 漢字字串與UTF-8之間的轉換

2.1 ConvertStringToUTF8

/**
 * 漢字 轉換為對應的 UTF-8編碼
 * @param s 木
 * @return E69CA8
 */
public static String convertStringToUTF8(String s) {
	if (s == null || s.equals("")) {
		return null;
	}
	StringBuffer sb = new StringBuffer();
	try {
		char c;
		for (int i = 0; i < s.length(); i++) {
			c = s.charAt(i);
			if (c >= 0 && c <= 255) {
				sb.append(c);
			} else {
				byte[] b;
				b = Character.toString(c).getBytes("utf-8");
				for (int j = 0; j < b.length; j++) {
					int k = b[j];
					//轉換為unsigned integer  無符號integer
					/*if (k < 0)
						k += 256;*/
					k = k < 0? k+256:k;
					//返回整數引數的字串表示形式 作為十六進位制（base16）中的無符號整數
					//該值以十六進位制（base16）轉換為ASCII數字的字串
					sb.append(Integer.toHexString(k).toUpperCase());

					// url轉置形式
					// sb.append("%" +Integer.toHexString(k).toUpperCase());
				}
			}
		}
	} catch (Exception e) {
		e.printStackTrace();
	}
	return sb.toString();
}

測試

@Test
public void testConvertStringToUTF8() {
	String str = "木";
	String s = EncodeUtil.convertStringToUTF8(str);
	System.out.println(s);  //E69CA8
}

2.2 ConvertUTF-8ToString

/**
 * UTF-8編碼 轉換為對應的 漢字
 *
 * @param s E69CA8
 * @return 木
 */
public static String convertUTF8ToString(String s) {
	if (s == null || s.equals("")) {
		return null;
	}
	try {
		s = s.toUpperCase();
		int total = s.length() / 2;
		//標識位元組長度
		int pos = 0;
		byte[] buffer = new byte[total];
		for (int i = 0; i < total; i++) {
			int start = i * 2;
			//將字串引數解析為第二個引數指定的基數中的有符號整數。
			buffer[i] = (byte) Integer.parseInt(s.substring(start, start + 2), 16);
			pos++;
		}
		//通過使用指定的字符集解碼指定的位元組子陣列來構造一個新的字串。
		//新字串的長度是字符集的函式，因此可能不等於子陣列的長度。
		return new String(buffer, 0, pos, "UTF-8");
	} catch (UnsupportedEncodingException e) {
		e.printStackTrace();
	}
	return s;
}

測試

@Test
public void testConvertUTF8ToString() {
	String str = "E69CA8";
	String s = EncodeUtil.convertUTF8ToString(str);
	System.out.print(s);  //木
}

3. unicode與utf-8之間的轉換

3.1 unicode轉為utf8

//將unicode轉換為utf-8
@Test
public void testUnicodeToUtf8() {
	String str = "\\u6728";
	//unicode轉換為String String再轉換為utf-8
	String s = EncodeUtil.convertStringToUTF8(EncodeUtil.unicodeToString(str));
	System.out.println(s);
}

3.2 utf8轉為unicode

//將utf-8轉換為unicode
@Test
public void testUTF8ToUnicode() {
	String str = "E69CA8";
	//utf-8先轉String String再轉unicode
	String s = EncodeUtil.stringToUnicode(EncodeUtil.convertUTF8ToString(str));
	System.out.println(s);
}

總結來說：

1. java中的一個char是兩個位元組，以unicode方式儲存在記憶體中。

2. 一個典型的錯誤是

String s = new String(”木”.getBytes(“utf-8”),”gbk”);

為什麼會報錯呢？原因是 utf-8編碼的位元組陣列怎能使用gbk來解析呢？一個漢字在utf-8下佔用3個位元組，而在gbk下佔用2個位元組，是無法解析的。

3. java中提供了將漢字編碼為utf8的方法 UrlEncoder.encode()以及解碼的方法UrlDecoder.decode()

參考：

java中unicode utf-8以及漢字之間的轉換工具類

1. 漢字字串與unicode之間的轉換 1.1 stringToUnicode /** * 獲取字串的unicode編碼 * 漢字“木”的Unicode 碼點為Ox6728 * * @param s 木 * @return \uf

java 中 byte[]、File、InputStream 互相轉換工具類

java 中 byte[]、File、InputStream 互相轉換1、將File、FileInputStream 轉換為byte陣列：File file = new File("test.txt");InputStream input = new FileInputSt

Java中的UTF-8、UTF-16編碼字元所佔位元組數

前言：上一篇文章寫了關於Unicode，以及utf-8、utf-16相關知識。所以本篇博文來驗證在java環境下，字元在不同編碼下所佔的字計數。測試程式碼如下： package string; public class CharByteTes

VS 中Unicode(UTF-8 帶簽名) -內碼表 65001

VS 中釋出網站編碼問題: 釋出後的編碼格式是GB2312,ANSI,瀏覽頁面出現亂碼! 1. 開啟一個頁面,然後檔案-->高階儲存選項-->如果是UTF-8(不帶簽名的釋出後預設變成ANSI格式),將其改成UTF-8(帶簽名) 2.工具--->選項---

rf中解析utf-8格式的中文轉換

在rf中，引入外部檔案中的變數，如果此變數的值為中文的時候，在列印此變數的時候，會發現打印出來的結果是utf-8格式的字串，而不是中文，需要通過解碼的方式將其轉換成unicode編碼，然後就可以展示中

金額元分之間轉換工具類

import java.math.BigDecimal;/** *金額元分之間轉換工具類 */public class AmountUtils { /**金額為分的格式 */ public static final String CURRENCY_FEN_REGEX = "^(([1-9]{1}\

Python入門：unicode、ASCII、UTF-8、漢字等之間的關係

ASCII 引用：【百度百科ascii】：ASCII（American Standard Code for Information Interchange，美國標準資訊交換程式碼）是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言。它是現今最

【Python基礎】字符編碼ASCII-GBK-Unicode-UTF-8之間的關系

精準應該寫入歷程 UC tran 執行文件總結字符編碼由於計算機只識別0和1，為了使計算機能夠支持文字和字母等符號，方便實用操作計算機於是字符編碼應運而生，旨在解決符號和人類語言與計算機0和1建立起一種對應關系據說不理解字符編碼可能是程序員一輩子的遺憾，拿

字串UTF-8和GBK之間的轉換以及判定

一、判定字串是否是UTF-8的編碼 bool is_str_utf8(const char* str) { unsigned int nBytes = 0;//UFT8可用1-6個位元組編碼,ASCII用一個位元組 unsigned char chr = *str; boo

ASCII Unicode UTF-8 之間的關系

edit 服務 post ima 文本 tar gb2312 漢字之間轉載請標明：https://i.cnblogs.com/EditPosts.aspx?opt=1 1. ASCII 　　ASCII 只有127個字符，表示英文字母的大小寫、數字和一些符號，但由於其他

ASCII Unicode UTF-8 之間的關係

轉載請標明：https://i.cnblogs.com/EditPosts.aspx?opt=1 1. ASCII 　　ASCII 只有127個字元，表示英文字母的大小寫、數字和一些符號，但由於其他語言用ASCII 編碼表示位元組不夠，例如：常用中文需要兩個位元組，且不能和ASCII衝突，中國

Python中GBK, UTF-8和Unicode的編碼問題

https://www.cnblogs.com/jxzheng/p/5186490.html 編碼問題，一直是使用python2時的一塊心病。幾乎所有的控制檯輸入輸出、IO操作和HTTP操作都會涉及如下的編碼問題： UnicodeDecodeError: ‘ascii’ codec can’

一問讀懂ASCII、Unicode、Utf-8以及Python2編碼問題

最近用到Python2.7處理中文遇到了很多坑，查閱了一些資料後終於基本弄清楚了基本編碼問題，寫下此文作為總結。最好的學習資料是維基百科，不過百科裡寫的比較囉嗦，本文精簡地梳理了這些核心概念。看完本文後，對某個概念仍然不清楚可以繼續閱讀對應百科詞條。 ASCII和Unico

java中unicode與字串之間的互相轉換

字串與unicode之間的互相轉換/*** 字串轉換unicode*/public static String string2Unicode(String string) { StringBuffer unicode = new StringBuffer(); for (i

Python中關於coding=utf-8以及中文字元前加u的解釋

寫了很久的Python了，每次寫之前都要在開頭加上coding=utf-8，只知道是設定編碼格式，但並沒有太在意，今天在寫socket程式設計時才發現編碼格式的重要性。一、關於開頭coding=utf-8 開頭的coding=utf-8和coding:utf-8的作用是一

Java中字節與對象之間的轉換

ring str arr cti void too trac port ear 近期公司裏面用到了消息隊列，而正如我們知道的是消息隊列之間的是通過二進制形式的。以下就分享一下java中字節與對象之間的轉換。主要是用到了ByteArrayOutputStream和Ob

java中日期與字符串之間的轉換

oda ava ret .text tostring simple cep 日期格式 clas import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;

關於字符編碼，你所需要知道的（ASCII,Unicode,Utf-8,GB2312…）

tle cati http char 表示編寫編號小端調用字符編碼的問題看似很小，經常被技術人員忽視，但是很容易導致一些莫名其妙的問題。這裏總結了一下字符編碼的一些普及性的知識，希望對大家有所幫助。還是得從ASCII碼說起說到字符編碼，不得不說ASCII碼的簡

關於編碼之一：Unicode/UTF-8/UTF-16/UTF-32

規則系統默認標記大小端 post mark 編碼方式一位 end 1.關於編碼，繞不開下面這些概念 ①Unicode/UTF-8/UTF-16/UTF-32 ②大小端字節序（big-endian/little-endian） ③BOM（Byte Order M

ASSCII GB2312 Unicode UTF-8

處理文件處理 pos 系統常用 utf 字符編碼硬件中文註釋前序：經常被各種字符編碼搞混淆，尤其在涉及到文件處理和文件傳輸，以及中文註釋等時，特精簡總結下常用的字符編碼，以便後記。 ASSCII：最早、最精簡的字符編碼，127個字符，大小寫、數字、

java中unicode utf-8以及漢字之間的轉換工具類

1. 漢字字串與unicode之間的轉換

1.1 stringToUnicode

1.2 unicodeToString

2. 漢字字串與UTF-8之間的轉換

2.1 ConvertStringToUTF8

2.2 ConvertUTF-8ToString

3. unicode與utf-8之間的轉換

3.1 unicode轉為utf8

3.2 utf8轉為unicode

相關推薦