【131】Java把\u開頭的Unicode編碼轉換成漢字

阿新 • • 發佈：2018-12-26

最近工作中遇到需要呼叫第三方介面的需求。第三方介面返回的字串中，會把中文轉義成 \u + Unicode 的形式。因此，我需要再把 \u + Unicode 轉換成漢字。

這裡，我們需要認識到 Java 程式碼對於 \u 字元處理的內外有別。如果是編寫程式的時候，直接在字串變數裡面寫 \u + Unicode ，Java 會自動轉成漢字。但是 Java 程式對於從外部輸入的 \u + Unicode 字元，會把 \u 視作普通字元，相當於 Java 字串中的 "\\u" 。

下面是工具類程式碼，用於把 \u + Unicode 轉換成漢字。

package zhangchao.common. 
unicode;

import java.util.regex.Pattern;

/**
 * 字串中存在 反斜槓+u 開頭 的Unicode字元。本類用於把那些Unicode字串轉換成漢字
 * @author 張超
 *
 */
public final class UicodeBackslashU {
	// 單個字元的正則表示式
	private static final String singlePattern = "[0-9|a-f|A-F]";
	// 4個字元的正則表示式
	private static final String pattern = singlePattern + singlePattern + 

			singlePattern + singlePattern;
	

	
	/**
	 * 把 \\u 開頭的單字轉成漢字，如 \\u6B65 ->　步
	 * @param str
	 * @return
	 */
	private static String ustartToCn(final String str) {
		StringBuilder sb = new StringBuilder().append("0x")
				.append(str.substring(2, 6));
		Integer codeInteger = Integer.decode(sb.toString 
());
		int code = codeInteger.intValue();
		char c = (char)code;
		return String.valueOf(c);
	}
	
	/**
	 * 字串是否以Unicode字元開頭。約定Unicode字元以 \\u開頭。
	 * @param str 字串
	 * @return true表示以Unicode字元開頭.
	 */
	private static boolean isStartWithUnicode(final String str) {
		if (null == str || str.length() == 0) {
			return false;
		}
		if (!str.startsWith("\\u")) {
			return false;
		}
		// \u6B65
		if (str.length() < 6) {
			return false;
		}
		String content = str.substring(2, 6);
		
		boolean isMatch = Pattern.matches(pattern, content);
		return isMatch;
	}
	
	/**
	 * 字串中，所有以 \\u 開頭的UNICODE字串，全部替換成漢字
	 * @param strParam
	 * @return
	 */
	public static String unicodeToCn(final String str) {
		// 用於構建新的字串
		StringBuilder sb = new StringBuilder();
		// 從左向右掃描字串。tmpStr是還沒有被掃描的剩餘字串。
		// 下面有兩個判斷分支：
		// 1. 如果剩餘字串是Unicode字元開頭，就把Unicode轉換成漢字，加到StringBuilder中。然後跳過這個Unicode字元。
		// 2.反之， 如果剩餘字串不是Unicode字元開頭，把普通字元加入StringBuilder，向右跳過1.
		int length = str.length();
		for (int i = 0; i < length;) {
			String tmpStr = str.substring(i);
			if (isStartWithUnicode(tmpStr)) { // 分支1
				sb.append(ustartToCn(tmpStr));
				i += 6;
			} else { // 分支2
				sb.append(str.substring(i, i + 1));
				i++;
			}
		}
		return sb.toString();
	}
}

下面我們要測試一下程式碼。我們讀取了一個JSON檔案，檔案中有 \u + Unicode 的內容。

讀取檔案的 FileUtils.java:

package zhangchao.common.utils;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;

/**
 * 檔案工具類
 * @author 張超
 *
 */
public final class FileUtils {
	
	/**
	 * 讀取檔案內容，並把內容作為字串返回
	 * @param f 要讀取的檔案
	 * @return 字串形式的檔案內容。
	 */
	public static String readAsString(File f) {
		BufferedReader br = null;
		StringBuilder sb = new StringBuilder();
		try {
			br = new BufferedReader(new InputStreamReader(new FileInputStream(f)));
			String str = br.readLine();
			while (null != str) {
				sb.append(str).append("\n");
				str = br.readLine();
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			try {
				if (null != br) {
				br.close();
				br = null;
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		return sb.toString();
	}
}

用於測試的主類，TestUnicode.java：

package zhangchao.test;

import zhangchao.common.utils.FileUtils;
import zhangchao.common.unicode.UicodeBackslashU;

import java.io.File;

/**
 * 測試 \\u +　Unicode　轉換成漢字
 * @author 張超
 *
 */
public class TestUnicode {

	public static void main(String[] args) {
		String jsonStr = FileUtils.readAsString(new File("src/test/resources/MyJson.json"));
		String str = UicodeBackslashU.unicodeToCn(jsonStr);
		System.out.println(str);
	}

}

MyJson.json 的檔案內容：

{
    "msg":"success",
    "data":{
        "userId":"12363324",
        "collegeName":"\u8BA1\u7B97\u673A\u5B66\u9662",
        "className":"\u8F6F\u4EF6\u4E00\u73ED"
    }
}

程式的執行結果：

{
    "msg":"success",
    "data":{
        "userId":"12363324",
        "collegeName":"計算機學院",
        "className":"軟體一班"
    }
}

下面的圖片解釋了 UicodeBackslashU 類的工作原理：

在這裡插入圖片描述

【131】Java把\u開頭的Unicode編碼轉換成漢字

最近工作中遇到需要呼叫第三方介面的需求。第三方介面返回的字串中，會把中文轉義成 \u + Unicode 的形式。因此，我需要再把 \u + Unicode 轉換成漢字。這裡，我們需要認識到 Java 程式碼對於 \u 字元處理的內外有別。如果是編寫程式的時候

【11】Caffe學習系列：影象資料轉換成db（leveldb/lmdb)檔案

在深度學習的實際應用中，我們經常用到的原始資料是圖片檔案，如jpg,jpeg,png,tif等格式的，而且有可能圖片的大小還不一致。而在caffe中經常使用的資料型別是lmdb或leveldb，因此就產生了這樣的一個問題：如何從原始圖片檔案轉換成caffe中能夠執行的db（leveldb/lmdb)

java將Unicode編碼轉換為漢字

java實現unicode編碼轉換為漢字編碼的程式碼！ package com.amarsoft.court.app.commom; public class JSStrDecoder { public static String unescape(String sr

中文轉換成Unicode編碼和Unicode編碼轉換成中文，Java程式碼實現

import java.util.Properties; public class Test { public static void main(String[] args

java把13位時間戳轉換成"yyyy-MM-dd HH:mm:ss"格式的工具類

package com.liming.test; import java.sql.SQLException; import java.text.SimpleDateFormat; import ja

【OpenCV】將影象資料由YUV格式轉換成JPG格式直接使用，而不儲存成檔案

解決方法使用OpenCV影象編碼和解碼函式：imencode、imdecode std::vector data_encode; imencode(“.png”, img_encode, dat

python之分析decode、encode、unicode編碼轉換為漢字

decode()方法使用註冊編碼的編解碼器的字串進行解碼。它預設為預設的字串編碼。decode函式可以將一個普通字串轉換為unicode物件。decode是將普通字串按照引數中的編碼格式進行解析，然後生成對應的unicode物件，比如在這裡我們程式碼用的是utf-8，那麼把

【ACM】HDU 1012 u Calculate e (for java)

import java.text.DecimalFormat; public class Main { public static void main(String[] args) { double[] arr = new double[10]; arr[0] = 1;

python3 把\u開頭的unicode轉中文，把str形態的unicode轉中文

python3 把unicode轉中文，把str形態的unicode轉中文今天用py3.5爬東西的時候，爬到的是json格式，裡面的中文還都是unicode的形式. 講道理的話只要直接輸出就可以了，類似這樣的 >>> print (

【漫畫】JAVA併發程式設計 J.U.C Lock包之ReentrantLock互斥鎖

在如何解決原子性問題的最後，我們賣了個關子，互斥鎖不僅僅只有synchronized關鍵字，還可以用什麼來實現呢？ J.U.C包中還提供了一個叫做Locks的包，我好歹英語過了四級，聽名字我就能馬上大聲的說：Locks包必然也可以用作互斥！ # ReentrantLock 我們可以通過從具體到抽象的方法來揭開

【轉】java提高篇(二)-----理解java的三大特性之繼承

logs 了解向上轉型 one 調用 adding nbsp eight 基礎【轉】java提高篇(二)-----理解java的三大特性之繼承原文地址：http://www.cnblogs.com/chenssy/p/3354884.html 在《Thi

【轉】Java技術棧

健全區別 hadoop let 原因 view eba pdf 觀察者 1 java基礎： 1.1 算法 1.1 排序算法：直接插入排序、希爾排序、冒泡排序、快速排序、直接選擇排序、堆排序、歸並排序、基數排序 1.2 二叉查找樹、紅黑樹、B樹、B+樹、LSM樹（分別有對

【分享】Java後臺開發精選知識圖譜

僅支持 jqgrid lai content 結果集完全異常處理分布式服務 list 地址引言：學習一個新的技術時，其實不在於跟著某個教程敲出了幾行、幾百行代碼，這樣你最多只能知其然而不知其所以然，進步緩慢且深度有限，最重要的是一開始就對整個學習路線有宏觀、簡潔的

【Servlet】Java Servet Filter 過濾器

退出方法 efi rlogin file submit ati 姓名 ner lan Filter的設計思想Filter是一種AOP的設計思想 : 面向切面下面這是一個使用filter的登錄案例：我們通過一張圖片理解理解filer面向切面下面是項目的結構：下面是jsp文件：

1000行代碼徒手寫正則表達式引擎【1】--JAVA中正則表達式的使用

基礎上 unicode 要求 [1] 分配 find 通過 images char 簡介：本文是系列博客的第一篇，主要講解和分析正則表達式規則以及JAVA中原生正則表達式引擎的使用。在後續的文章中會涉及基於NFA的正則表達式引擎內部的工作原理，並在此基礎上用1000行左右

【異常】java.lang.IllegalArgumentException: Cannot locate declared field class org.apache.http.impl.client.HttpClientBuilder.dnsResolver 的解決方案

pcl group lan cnblogs cat resolv artifact exceptio 網頁起因：使用htmlunit爬取外部網頁的時候遇到這個異常：java.lang.IllegalArgumentException: Cannot locate decl

【131】Java把\u開頭的Unicode編碼轉換成漢字

【131】Java把\u開頭的Unicode編碼轉換成漢字

【11】Caffe學習系列：影象資料轉換成db（leveldb/lmdb)檔案

java將Unicode編碼轉換為漢字

中文轉換成Unicode編碼和Unicode編碼轉換成中文，Java程式碼實現

java把13位時間戳轉換成"yyyy-MM-dd HH:mm:ss"格式的工具類

【OpenCV】將影象資料由YUV格式轉換成JPG格式直接使用，而不儲存成檔案

python之分析decode、encode、unicode編碼轉換為漢字

【ACM】HDU 1012 u Calculate e (for java)

python3 把\u開頭的unicode轉中文，把str形態的unicode轉中文

【漫畫】JAVA併發程式設計 J.U.C Lock包之ReentrantLock互斥鎖

【轉】java提高篇(二)-----理解java的三大特性之繼承

【轉】Java技術棧

【分享】Java後臺開發精選知識圖譜

【Servlet】Java Servet Filter 過濾器

1000行代碼徒手寫正則表達式引擎【1】--JAVA中正則表達式的使用

【異常】java.lang.IllegalArgumentException: Cannot locate declared field class org.apache.http.impl.client.HttpClientBuilder.dnsResolver 的解決方案

【轉載】Java中Comparable和Comparator比較

【轉載】JAVA多線程讀取、操作List集合

Python自動化開發課堂筆記【Day14】 - Java Script

【轉】Java壓縮和解壓文件工具類ZipUtil

【131】Java把\u開頭的Unicode編碼轉換成漢字

相關推薦