Java判斷一個字串中是否包含中文字元工具類

阿新 • • 發佈：2019-02-20

Java判斷一個字串是否有中文一般情況是利用Unicode編碼(CJK統一漢字的編碼區間：0x4e00–0x9fbb)的正則來做判斷，但是其實這個區間來判斷中文不是非常精確，因為有些中文的標點符號比如：，。等等是不能識別的。

以下是比較完善的判斷方法：CharUtil.java

package com.micmiu.utils;
import java.util.regex.Pattern;
/**
* 字元通用工具類
*
* @author <a href="http://www.micmiu.com">Michael Sun</a>
*/
publicclass CharUtil {
/**
* @param args
*/
publicstaticvoid main(String[] args) {
String[] strArr = new String[] { "www.micmiu.com",
"!@#$%^&*()_+{}[]|\"'?/:;<>,.", "！￥……（）——：；“”‘’《》，。？、", "不要啊",
"やめて", "韓佳人", "한가인" };
for (String str : strArr) {
System.out.println("===========> 測試字串：" + str);
System.out.println("正則判斷："

+ isChineseByREG(str) + " -- "
+ isChineseByName(str));
System.out.println("Unicode判斷結果：" + isChinese(str));
System.out.println("詳細判斷列表：");
char[] ch = str.toCharArray();
for (int i = 0; i < ch.length; i++) {
char

c = ch[i];
System.out.println(c + " --> " + (isChinese(c) ? "是" : "否"));
}
}
}
// 根據Unicode編碼完美的判斷中文漢字和符號
privatestaticboolean isChinese(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
|| ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
|| ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
returntrue;
}
returnfalse;
}
// 完整的判斷中文漢字和符號
publicstaticboolean isChinese(String strName) {
char[] ch = strName.toCharArray();
for (int i = 0; i < ch.length; i++) {
char c = ch[i];
if (isChinese(c)) {
returntrue;
}
}
returnfalse;
}
// 只能判斷部分CJK字元（CJK統一漢字）
publicstaticboolean isChineseByREG(String str) {
if (str == null) {
returnfalse;
}
Pattern pattern = Pattern.compile("[\\u4E00-\\u9FBF]+");
return pattern.matcher(str.trim()).find();
}
// 只能判斷部分CJK字元（CJK統一漢字）
publicstaticboolean isChineseByName(String str) {
if (str == null) {
returnfalse;
}
// 大小寫不同：\\p 表示包含，\\P 表示不包含
// \\p{Cn} 的意思為 Unicode 中未被定義字元的編碼，\\P{Cn} 就表示 Unicode中已經被定義字元的編碼
String reg = "\\p{InCJK Unified Ideographs}&&\\P{Cn}";
Pattern pattern = Pattern.compile(reg);
return pattern.matcher(str.trim()).find();
}
}

package com.micmiu.utils;

import java.util.regex.Pattern;

/**
 * 字元通用工具類
 * 
 * @author <a href="http://www.micmiu.com">Michael Sun</a>
 */
public class CharUtil {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String[] strArr = new String[] { "www.micmiu.com",
				"!@#$%^&*()_+{}[]|\"'?/:;<>,.", "！￥……（）——：；“”‘’《》，。？、", "不要啊",
				"やめて", "韓佳人", "한가인" };
		for (String str : strArr) {
			System.out.println("===========> 測試字串：" + str);
			System.out.println("正則判斷：" + isChineseByREG(str) + " -- "
					+ isChineseByName(str));
			System.out.println("Unicode判斷結果 ：" + isChinese(str));
			System.out.println("詳細判斷列表：");
			char[] ch = str.toCharArray();
			for (int i = 0; i < ch.length; i++) {
				char c = ch[i];
				System.out.println(c + " --> " + (isChinese(c) ? "是" : "否"));
			}
		}

	}

	// 根據Unicode編碼完美的判斷中文漢字和符號
	private static boolean isChinese(char c) {
		Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
		if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
				|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
				|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
				|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
				|| ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
				|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
				|| ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
			return true;
		}
		return false;
	}

	// 完整的判斷中文漢字和符號
	public static boolean isChinese(String strName) {
		char[] ch = strName.toCharArray();
		for (int i = 0; i < ch.length; i++) {
			char c = ch[i];
			if (isChinese(c)) {
				return true;
			}
		}
		return false;
	}

	// 只能判斷部分CJK字元（CJK統一漢字）
	public static boolean isChineseByREG(String str) {
		if (str == null) {
			return false;
		}
		Pattern pattern = Pattern.compile("[\\u4E00-\\u9FBF]+");
		return pattern.matcher(str.trim()).find();
	}

	// 只能判斷部分CJK字元（CJK統一漢字）
	public static boolean isChineseByName(String str) {
		if (str == null) {
			return false;
		}
		// 大小寫不同：\\p 表示包含，\\P 表示不包含 
		// \\p{Cn} 的意思為 Unicode 中未被定義字元的編碼，\\P{Cn} 就表示 Unicode中已經被定義字元的編碼
		String reg = "\\p{InCJK Unified Ideographs}&&\\P{Cn}";
		Pattern pattern = Pattern.compile(reg);
		return pattern.matcher(str.trim()).find();
	}
}

[plain] view plain copy print?

===========> 測試字串：www.micmiu.com
正則判斷：false -- false
Unicode判斷結果：false
詳細判斷列表：
w --> 否
w --> 否
w --> 否
. --> 否
m --> 否
i --> 否
c --> 否
m --> 否
i --> 否
u --> 否
. --> 否
c --> 否
o --> 否
m --> 否
===========> 測試字串：!@#$%^&*()_+{}[]|"'?/:;<>,.
正則判斷：false -- false
Unicode判斷結果：false
詳細判斷列表：
! --> 否
@ --> 否
# --> 否
$ --> 否
% --> 否
^ --> 否
& --> 否
* --> 否
( --> 否
) --> 否
_ --> 否
+ --> 否
{ --> 否
} --> 否
[ --> 否
] --> 否
| --> 否
" --> 否
' --> 否
? --> 否
/ --> 否
: --> 否
; --> 否
< --> 否
> --> 否
, --> 否
. --> 否
===========> 測試字串：！￥……（）——：；“”‘’《》，。？、
正則判斷：false -- false
Unicode判斷結果：true
詳細判斷列表：
！ --> 是
￥ --> 是
… --> 是
… --> 是
（ --> 是
） --> 是
— --> 是
— --> 是
： --> 是
； --> 是
“ --> 是
” --> 是
‘ --> 是
’ --> 是
《 --> 是
》 --> 是
， --> 是
。 --> 是
？ --> 是
、 --> 是
===========> 測試字串：不要啊
正則判斷：true -- false
Unicode判斷結果：true
詳細判斷列表：
不 --> 是
要 --> 是
啊 --> 是
===========> 測試字串：やめて
正則判斷：false -- false
Unicode判斷結果：false
詳細判斷列表：
や --> 否
め --> 否
て --> 否
===========> 測試字串：韓佳人
正則判斷：true -- false
Unicode判斷結果：true
詳細判斷列表：
韓 --> 是
佳 --> 是
人 --> 是
===========> 測試字串：한가인
正則判斷：false -- false
Unicode判斷結果：false
詳細判斷列表：
한 --> 否
가 --> 否
인 --> 否

===========> 測試字串：www.micmiu.com
正則判斷：false -- false
Unicode判斷結果 ：false
詳細判斷列表：
w --> 否
w --> 否
w --> 否
. --> 否
m --> 否
i --> 否
c --> 否
m --> 否
i --> 否
u --> 否
. --> 否
c --> 否
o --> 否
m --> 否
===========> 測試字串：!@#$%^&*()_+{}[]|"'?/:;<>,.
正則判斷：false -- false
Unicode判斷結果 ：false
詳細判斷列表：
! --> 否
@ --> 否
# --> 否
$ --> 否
% --> 否
^ --> 否
& --> 否
* --> 否
( --> 否
) --> 否
_ --> 否
+ --> 否
{ --> 否
} --> 否
[ --> 否
] --> 否
| --> 否
" --> 否
' --> 否
? --> 否
/ --> 否
: --> 否
; --> 否
< --> 否
> --> 否
, --> 否
. --> 否
===========> 測試字串：！￥……（）——：；“”‘’《》，。？、
正則判斷：false -- false
Unicode判斷結果 ：true
詳細判斷列表：
！ --> 是
￥ --> 是
… --> 是
… --> 是
（ --> 是
） --> 是
— --> 是
— --> 是
： --> 是
； --> 是
“ --> 是
” --> 是
‘ --> 是
’ --> 是
《 --> 是
》 --> 是
， --> 是
。 --> 是
？ --> 是
、 --> 是
===========> 測試字串：不要啊
正則判斷：true -- false
Unicode判斷結果 ：true
詳細判斷列表：
不 --> 是
要 --> 是
啊 --> 是
===========> 測試字串：やめて
正則判斷：false -- false
Unicode判斷結果 ：false
詳細判斷列表：
や --> 否
め --> 否
て --> 否
===========> 測試字串：韓佳人
正則判斷：true -- false
Unicode判斷結果 ：true
詳細判斷列表：
韓 --> 是
佳 --> 是
人 --> 是
===========> 測試字串：한가인
正則判斷：false -- false
Unicode判斷結果 ：false
詳細判斷列表：
한 --> 否
가 --> 否
인 --> 否

Java判斷一個字串中是否包含中文字元工具類

Java判斷一個字串是否有中文一般情況是利用Unicode編碼(CJK統一漢字的編碼區間：0x4e00–0x9fbb)的正則來做判斷，但是其實這個區間來判斷中文不是非常精確，因為有些中文的標點符號比如：，。等等是不能識別的。以下是比較完善的判斷方法：CharUtil.j

在java中判斷一個字串中是否包含某個字元或字串

一、contains方法 java.lang.String.contains() 方法返回true，當且僅當此字串包含指定的char值序列此方法返回true，如果此字串包含，否則返回false。 public static void main(String[] args

java判斷A字串中是否包含B字元

java.lang.String類提供的方法 public boolean contains(CharSequence s) 當且僅當此字串包含指定的 char 值序列時，返回 true。例

oracle判斷一個字串中是否包含另外一個字串

select * from a where instr(a,b)>0;這個只能實現B欄位是A欄位中的某一部分的時候。如果想要不論順序或者不相鄰的字元時，定義函式可以實現 create or replace function checks(v_a varchar2,v_b varchar) retu

[資料庫][SQLServer]判斷一個字串中是否包含另一個字串

函式 CHARINDEX函式返回字元或者字串在另一個字串中的起始位置 CHARINDEX ( expression1 , expression2 [ , start_location ] ) Expression1是要到expression2中尋找的字元中，

java 判斷一個字串中的字元全是字母

記錄一個方法，用來判斷一個字串中字元是否全為字母 public class MainClass { public static void main(String[] args){

java 集合有一個字串，其中包含中文字元、英文字元和數字字元，請統計和打印出各個字元的個數

import java.util.HashMap; import java.util.Map; //有一個字串，其中包含中文字元、英文字元和數字字元，請統計和打印出各個字元的個數 public class StringDemo {public static void m

判斷一個字串中是否包含另一個字串

問題：如何判斷一個字串兒是否包含另一個字串兒？其實，字串兒String裡面本身就包含一個contains()方法，它可以在一定程度上判斷一個字串兒裡面是否包含另一個字串兒。但是，它比較傻，所能做的工作有限，比如說： "Hello, July".contains("July") /

、有一個字串，其中包含中文字元、英文字元和數字字元，請統計和打印出各個字元的個數。

char[] c = { '6', 's', 'd', '7', 'g', '文', '中' }; int z = 0; int s = 0; int y = 0; for (char x : c) switch ((int) x / 10) { case 4:

判斷一個字串中含有某一字元個數新解

經常遇到要判斷某一字串中含有特定字元的個數問題，通常的做法是寫一個迴圈來遍歷字串，但是今天看到一種更高效的做法，如下：要判斷str中含有‘a‘字元的個數String str="abcdefghijklmn";char ch='a';System.out.println(str.length()-str.rep

java中怎麼判斷一個字串中包含某個字元或字串

var Cts = "bblText"; if(Cts.indexOf("Text") > 0 ) { alert('Cts中包含Text字串'); } indexOf用法: 返回 String 物件內第一次出現子字串的字元位置。 strObj.ind

Java——給定一個字串,判斷該字串中是否包含某個子串.如果包含,求出子串的所有出現位置.

引入包：import java.util.Scanner;main函式：public static void main(String[] args){Scanner s = new Scanner(System.in);System.out.println("請輸入字串");

判斷一個字串中數字還是字母(java)

public class Test { public static void main(String[] args) { String str = "wq8123fvvbvrt78931321"; &nb

java 判斷一個字串是否包含某個字元

一、contains方法 1：描述 java.lang.String.contains() 方法返回true，當且僅當此字串包含指定的char值序列 2：宣告 public boolean contains(CharSequence s)3：返回值此方法返回true，如果

如何在Java程式碼中檢查字串中是否包含中文？

今天和同事在討論一個問題，需要檢查“輸入的字串中是否包含中文”，剛開始想到是用正則表示式，正則表示式中是以[u4e00-u9fa5]來全匹配字元是否是中文，但現在面臨的問題是這個字串中還可能包含英文字元、數字、特殊字元，一時也沒想出能匹配該場景的正則表示式，後來在網上搜了下，可以使用Matcher類

java 判斷一個字串是否包含另一個字串

方法一： String str = "1234567"; if(str.indexOf("23") != -1) { System.out.println("包含該字串"

java中如何判斷一個字串中含有字母或數字

描述： java.lang.character.isLetter(); 斷定指定字元是否是一個字母。 java.lang.character.isDigit(); 確定或判斷指定字元是否是一個數字。示例： public static void main(

java判斷一個字串包含多少其他字串

public static int getSubCount_2(String str, String key) { int count = 0; int index = 0; while ((index = str

PostgreSQL: 如何判斷字串中是否包含指定字元。

今天有開發人員問到： PostgreSQL 中是否有函式可以判斷一個字串中是否包含指定字元，如果包含則返回 ture ，否則返回 false，例如，如果字串 'abcde' 中包含 'ab' 則返回 true，於是想了想，共總結以下三種方法，暫且不考慮效能。一方法一: 使用

js判斷一個dom中是否包含另一個dom的方法

首先，比較原始（蠢）的方法 function isChildOf(child, parent) { if(child && parent) { let parentNode = child.parentNode; w

Java判斷一個字串中是否包含中文字元工具類

相關推薦