1. 程式人生 > >位元組--程式設計題

位元組--程式設計題

編寫一個擷取字串的函式,輸入為一個字串和位元組數,輸出為按位元組擷取的字串, 但要保證漢字不被擷取半個,如“我 ABC”,4,應該擷取“我 AB”,輸入“我 ABC 漢 DEF”,6,應該輸出“我 ABC”,而不是“我 ABC+漢的半個”。


思路:
– utf-8中,一個字母用一個位元組表示,一個漢字用三個位元組表示,特殊的漢字用四個位元組表示;
– gbk中,一個字母用一個位元組表示,一個漢字用兩個位元組表示。
– 字母的位元組編碼> 0
– 漢字的位元組編碼< 0
附一個ASCII碼對照表【http://tool.oschina.net/commons?type=4】


和一個字元編碼查詢表【http://www.mytju.com/classcode/tools/encode_utf8.asp】

	public static void main(String[] args) throws UnsupportedEncodingException {
		String str = "嗨hello你好";
		int bytenum = 8;
		System.out.println(cutString(str,bytenum ));
	}
	
	public static String cutString(String str, int bytenum ) throws UnsupportedEncodingException{
		byte[] bytes = str.getBytes("GBK");
		int num = charnum(bytes,bytenum );
		String subStr = str.substring(0,num);
		return subStr;
	}
	
	public static int charnum(byte[] buf,int bytenum){
		int num = 0;
		boolean bChineseFirstHalf = false;
		for(int i=0; i<bytenum ; ++i){
			if(buf[i]<0 && !bChineseFirstHalf){
				bChineseFirstHalf= true;
			}else{
				num++;
				bChineseFirstHalf= false;
			}
		}
		return num;
	}
}