java將漢字轉換成漢語拼音(pinyin4j.jar的使用及原理)
一、思路介紹
見漢字的unicode碼和漢語拼音對應,這也是pinyin4j的思路
二、pinyin4j介紹
pinyin4j使用了一個.txt的文字檔案(uicode_to_hanyu_pinyin.txt)用來儲存漢字unicode編碼與拼音的對應關係,通過讀取該配置檔案達到轉換的目的。該屬性檔案儲存資訊的基本格式如下:89E3 (jie3,jie4,xie4) //(對應漢字"解")89E3 是漢字對應的unicode編碼的16進位制數,(jie3,jie4,xie4)是該漢字對應的三種讀音(在漢語裡有多音字),說明pinyin4j支援多音字的處理pinyin4j的處理過程是這樣的:根據String的toCharArray方法得到每個字元(得到"解"字的unicode編碼,實際上是35299,由於java中char和String都是unicode編碼的可以直接轉為int型的編碼資料35299),然後利用Integer.toHexString(c1).toUpperCase()將其轉換成16進位制數[也就是89E3],通過讀取配置檔案得到“解”字的拼音(jie3,jie4,xie4),那麼這裡有三個拼音,pinyin4j的預設取值為第一個,也就是jie3[表示讀jie,聲調是三聲]
三、pinyin4j的使用
pinyin4j提供的工具類為PinyinHelper,裡邊提供了靜態方法toHanyuPinyinString()和toHanyuPinyinStringArray(),由於這兩個方法都涉及到一個HanyuPinyinOutputFormat型別的引數,我們先看一下pinyin4j中的輔助類。
pinyin4j中有四個輔助類分別是:HanyuPinyinCaseType、HanyuPinyinToneType、HanyuPinyinVCharType、HanyuPinyinOutputFormat
(1)HanyuPinyinCaseType類,提供了兩個靜態常量UPPERCASE和LOWERCASE,表示轉換後的拼音為大寫和小寫
(2)HanyuPinyinToneType類,提供了兩個靜態常量WITH_TONE_NUMBER和WITHOUT_TONE,表示轉換後的拼音是否帶聲調,還拿漢字"解"說明,如果我們設定了HanyuPinyinToneType型別為WITH_TONE_NUMBER,我們會取到jie3;如果型別是WITHOUT_TONE,取到的是jie
(3)HanyuPinyinVCharType類,提供了三個靜態常量WITH_U_AND_COLON、WITH_V和WITH_U_UNICODE,之所以有這個類是為了對拼音中的一種特殊情況做處理,比如"呂",我們鍵盤打字是"lv",而小學課本上是"lü",而在pinyin4j使用的屬性檔案中儲存的是(lu:3),所以該類提供了三種類型,分別表示轉換後的格式為"lu:"、"lv"和"lü"
(4)HanyuPinyinOutputFormat類,該類就是用來定製轉換後拼音格式的類,可以設定以上三種類型,預設設定為 HanyuPinyinVCharType.WITH_U_AND_COLON、 HanyuPinyinCaseType.LOWERCASE、 HanyuPinyinToneType.WITH_TONE_NUMBER
常用情況:
/**
* 獲得漢語拼音首字母
*
* @param chines
* 漢字
* @return
*/
public static String getAlpha(String chines) {
String pinyinName = "";
char[] nameChar = chines.toCharArray();
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
for (int i = 0; i < nameChar.length; i++) {
if (nameChar[i] > 128) {
try {
pinyinName += PinyinHelper.toHanyuPinyinStringArray(
nameChar[i], defaultFormat)[0].charAt(0);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
} else {
pinyinName += nameChar[i];
}
}
return pinyinName;
}
/**
* 將字串中的中文轉化為拼音,英文字元不變
*
* @param inputString
* 漢字
* @return
*/
public static String getPingYin(String inputString) {
HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
format.setVCharType(HanyuPinyinVCharType.WITH_V);
String output = "";
if (inputString != null && inputString.length() > 0
&& !"null".equals(inputString)) {
char[] input = inputString.trim().toCharArray();
try {
for (int i = 0; i < input.length; i++) {
if (java.lang.Character.toString(input[i]).matches(
"[\\u4E00-\\u9FA5]+")) {
String[] temp = PinyinHelper.toHanyuPinyinStringArray(
input[i], format);
output += temp[0];
} else
output += java.lang.Character.toString(input[i]);
}
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
} else {
return "*";
}
return output;
}
/**
* 漢字轉換位漢語拼音首字母,英文字元不變
*
* @param chines
* 漢字
* @return 拼音
*/
public static String converterToFirstSpell(String chines) {
String pinyinName = "";
char[] nameChar = chines.toCharArray();
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
for (int i = 0; i < nameChar.length; i++) {
if (nameChar[i] > 128) {
try {
pinyinName += PinyinHelper.toHanyuPinyinStringArray(
nameChar[i], defaultFormat)[0].charAt(0);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
} else {
pinyinName += nameChar[i];
}
}
return pinyinName;
}