1. 程式人生 > >java將漢字轉換成漢語拼音(pinyin4j.jar的使用及原理)

java將漢字轉換成漢語拼音(pinyin4j.jar的使用及原理)

一、思路介紹

見漢字的unicode碼和漢語拼音對應,這也是pinyin4j的思路

二、pinyin4j介紹

pinyin4j使用了一個.txt的文字檔案(uicode_to_hanyu_pinyin.txt)用來儲存漢字unicode編碼與拼音的對應關係,通過讀取該配置檔案達到轉換的目的。該屬性檔案儲存資訊的基本格式如下:89E3 (jie3,jie4,xie4)   //(對應漢字"解")89E3 是漢字對應的unicode編碼的16進位制數,(jie3,jie4,xie4)是該漢字對應的三種讀音(在漢語裡有多音字),說明pinyin4j支援多音字的處理pinyin4j的處理過程是這樣的:根據String的toCharArray方法得到每個字元(得到"解"字的unicode編碼,實際上是35299,由於java中char和String都是unicode編碼的可以直接轉為int型的編碼資料35299),然後利用Integer.toHexString(c1).toUpperCase()將其轉換成16進位制數[也就是89E3],通過讀取配置檔案得到“解”字的拼音(jie3,jie4,xie4),那麼這裡有三個拼音,pinyin4j的預設取值為第一個,也就是jie3[表示讀jie,聲調是三聲]

三、pinyin4j的使用

pinyin4j提供的工具類為PinyinHelper,裡邊提供了靜態方法toHanyuPinyinString()和toHanyuPinyinStringArray(),由於這兩個方法都涉及到一個HanyuPinyinOutputFormat型別的引數,我們先看一下pinyin4j中的輔助類。

pinyin4j中有四個輔助類分別是:HanyuPinyinCaseType、HanyuPinyinToneType、HanyuPinyinVCharType、HanyuPinyinOutputFormat

(1)HanyuPinyinCaseType類,提供了兩個靜態常量UPPERCASE和LOWERCASE,表示轉換後的拼音為大寫和小寫

(2)HanyuPinyinToneType類,提供了兩個靜態常量WITH_TONE_NUMBER和WITHOUT_TONE,表示轉換後的拼音是否帶聲調,還拿漢字"解"說明,如果我們設定了HanyuPinyinToneType型別為WITH_TONE_NUMBER,我們會取到jie3;如果型別是WITHOUT_TONE,取到的是jie

(3)HanyuPinyinVCharType類,提供了三個靜態常量WITH_U_AND_COLON、WITH_V和WITH_U_UNICODE,之所以有這個類是為了對拼音中的一種特殊情況做處理,比如"呂",我們鍵盤打字是"lv",而小學課本上是"lü",而在pinyin4j使用的屬性檔案中儲存的是(lu:3),所以該類提供了三種類型,分別表示轉換後的格式為"lu:"、"lv"和"lü"

(4)HanyuPinyinOutputFormat類,該類就是用來定製轉換後拼音格式的類,可以設定以上三種類型,預設設定為 HanyuPinyinVCharType.WITH_U_AND_COLON、 HanyuPinyinCaseType.LOWERCASE、 HanyuPinyinToneType.WITH_TONE_NUMBER

常用情況:

/**
	 * 獲得漢語拼音首字母
	 * 
	 * @param chines
	 *            漢字
	 * @return
	 */
	public static String getAlpha(String chines) {
		String pinyinName = "";
		char[] nameChar = chines.toCharArray();
		HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
		defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
		defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
		for (int i = 0; i < nameChar.length; i++) {
			if (nameChar[i] > 128) {
				try {
					pinyinName += PinyinHelper.toHanyuPinyinStringArray(
							nameChar[i], defaultFormat)[0].charAt(0);
				} catch (BadHanyuPinyinOutputFormatCombination e) {
					e.printStackTrace();
				}
			} else {
				pinyinName += nameChar[i];
			}
		}
		return pinyinName;
	}

	/**
	 * 將字串中的中文轉化為拼音,英文字元不變
	 * 
	 * @param inputString
	 *            漢字
	 * @return
	 */
	public static String getPingYin(String inputString) {
		HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
		format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
		format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
		format.setVCharType(HanyuPinyinVCharType.WITH_V);
		String output = "";
		if (inputString != null && inputString.length() > 0
				&& !"null".equals(inputString)) {
			char[] input = inputString.trim().toCharArray();
			try {
				for (int i = 0; i < input.length; i++) {
					if (java.lang.Character.toString(input[i]).matches(
							"[\\u4E00-\\u9FA5]+")) {
						String[] temp = PinyinHelper.toHanyuPinyinStringArray(
								input[i], format);
						output += temp[0];
					} else
						output += java.lang.Character.toString(input[i]);
				}
			} catch (BadHanyuPinyinOutputFormatCombination e) {
				e.printStackTrace();
			}
		} else {
			return "*";
		}
		return output;
	}

	/**
	 * 漢字轉換位漢語拼音首字母,英文字元不變
	 * 
	 * @param chines
	 *            漢字
	 * @return 拼音
	 */
	public static String converterToFirstSpell(String chines) {
		String pinyinName = "";
		char[] nameChar = chines.toCharArray();
		HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
		defaultFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE);
		defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
		for (int i = 0; i < nameChar.length; i++) {
			if (nameChar[i] > 128) {
				try {
					pinyinName += PinyinHelper.toHanyuPinyinStringArray(
							nameChar[i], defaultFormat)[0].charAt(0);
				} catch (BadHanyuPinyinOutputFormatCombination e) {
					e.printStackTrace();
				}
			} else {
				pinyinName += nameChar[i];
			}
		}
		return pinyinName;
	}