位元組--程式設計題
阿新 • • 發佈:2018-11-21
編寫一個擷取字串的函式,輸入為一個字串和位元組數,輸出為按位元組擷取的字串, 但要保證漢字不被擷取半個,如“我 ABC”,4,應該擷取“我 AB”,輸入“我 ABC 漢 DEF”,6,應該輸出“我 ABC”,而不是“我 ABC+漢的半個”。
思路:
– utf-8中,一個字母用一個位元組表示,一個漢字用三個位元組表示,特殊的漢字用四個位元組表示;
– gbk中,一個字母用一個位元組表示,一個漢字用兩個位元組表示。
– 字母的位元組編碼> 0
– 漢字的位元組編碼< 0
附一個ASCII碼對照表【http://tool.oschina.net/commons?type=4】
和一個字元編碼查詢表【http://www.mytju.com/classcode/tools/encode_utf8.asp】
public static void main(String[] args) throws UnsupportedEncodingException { String str = "嗨hello你好"; int bytenum = 8; System.out.println(cutString(str,bytenum )); } public static String cutString(String str, int bytenum ) throws UnsupportedEncodingException{ byte[] bytes = str.getBytes("GBK"); int num = charnum(bytes,bytenum ); String subStr = str.substring(0,num); return subStr; } public static int charnum(byte[] buf,int bytenum){ int num = 0; boolean bChineseFirstHalf = false; for(int i=0; i<bytenum ; ++i){ if(buf[i]<0 && !bChineseFirstHalf){ bChineseFirstHalf= true; }else{ num++; bChineseFirstHalf= false; } } return num; } }