Java中utf-8格式字符串的存儲方法。

阿新 • • 發佈：2017-11-25

字節 turn byte[] spa 負數 oid 只有一個 ret 字符串截取



知識點:
可通過 byte[] bytes=“xxxx”.getBytes("utf-8")得到字符串通過utf-8解析到字節數組。utf-8編碼格式下，計算機采用1個字節存儲ASCII範圍內的字符，采用3個字節儲存中文字符。

UTF-8是一種變長字節編碼方式。對於某一個字符的UTF-8編碼，如果只有一個字節則其最高二進制位為0；如果是多字節，其第一個字節從最高位開始，連續的二進制位值為1的個數決定了其編碼的位數，其余各字節均以10開頭。UTF-8最多可用到6個字節。
如表：
1字節 0xxxxxxx
2字節 110xxxxx 10xxxxxx
3字節 1110xxxx 10xxxxxx 10xxxxxx
4字節 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字節 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字節 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

註意:計算中中utf-8編碼存儲多字節字符時，並未將8個二進制位的首位作為符號位，如直接輸出，得到的將是負數。

byte[] bss = "這是一個神奇的世界".getBytes("utf-8");
System.out.println("bss長度:"+bss.length);//輸出:27，一個中文用三個字節存儲。
        
        //輸出:-24 -65 -103 -26 -104 -81 -28 -72 -128 -28 -72 -86 -25 -91 -98 -27 -91 -121 -25 -102 -124 -28 -72 -106 -25 -107 -116 
 for (byte b:bss) {
      System.out.print(b+" ");
}

如要正確獲得每一個字節表示的實際編碼值。可通過如下方式。（需了解位移運算，原碼、反碼、補碼相關知識）

1.十進制

 byte[] bss = "這是一個神奇的世界".getBytes("utf-8");
        System.out.println("bss長度:"+bss.length);//輸出:27，一個中文用三個字節存儲。
        //輸出:232 191 153 230 152 175 228 184 128 228 184 170 231 165 158 229 165 135 231 154 132 228 184 150 231 149 140 
        for (byte b:bss) {
            System.out.print(Integer.valueOf(b 
&0xff)+" ");
        }

2.十六進制

 byte[] bss = "這是一個神奇的世界".getBytes("utf-8");
        System.out.println("bss長度:"+bss.length);//輸出:27，一個中文用三個字節存儲。
        //輸出:e8 bf 99 e6 98 af e4 b8 80 e4 b8 aa e7 a5 9e e5 a5 87 e7 9a 84 e4 b8 96 e7 95 8c 
        for (byte b:bss) {
            System.out.print(Integer.toHexString(b&0xff)+" ");
        }

3.二進制

 byte[] bss = "這是一個神奇的世界".getBytes("utf-8");
        System.out.println("bss長度:"+bss.length);//輸出:27，一個中文用三個字節存儲。
        //輸出:11101000 10111111 10011001 11100110 10011000 10101111 11100100 
        // 10111000 10000000 11100100 10111000 10101010 11100111 10100101 10011110
        // 11100101 10100101 10000111 11100111 10011010 10000100 11100100 
        // 10111000 10010110 11100111 10010101 10001100
        for (byte b:bss) {
            System.out.print(Integer.toBinaryString(b&0xff)+" ");
        }

練習:中英文混合字符串截取

* 通過傳入字符串和字節素，根據字節數截取字串，utf-8下非英文字符占據多個字節，
* 如截取位置處於非英文字符的中間位置，應舍棄最後一個被截斷的字符。

public class StrTruncate {

    public static void main(String[] args) throws UnsupportedEncodingException {
        Scanner scanner = new Scanner(System.in);
        System.out.println("輸入(字符串,字節數)");
        String inputStr = scanner.nextLine();

        String sub = new StrTruncate().getSubStr(inputStr.split(",")[0]
                , Integer.valueOf(inputStr.split(",")[1]));
        System.out.println("截取後的字符串為:" + sub);
    }

    public String getSubStr(String resource, int charLen) throws UnsupportedEncodingException {
        if (charLen <= 0) {
            return null;
        }
        byte[] bytes = resource.getBytes("utf-8");
        if (bytes[charLen] < 0) {
            while (!Integer.toBinaryString(bytes[charLen] & 0xff).startsWith("11")) {
                charLen--;
            }
        }
        String subStr = new String(bytes, 0, charLen, "utf-8");
        return subStr;

    }
}

執行結果如下：

技術分享圖片

Java中utf-8格式字符串的存儲方法。

字節 turn byte[] spa 負數 oid 只有一個 ret 字符串截取知識點:可通過 byte[] bytes=“xxxx”.getBytes("utf-8")得到字符串通過utf-8解析到字節數組。utf-8編碼格式下，計算機采用1個字節存儲ASCII範圍內的

java中的String類字符串拆分成字符串數組判定郵箱地址字符串比較看結果？

如何字符串 string style print 拆分 ret bool char 看結果1？ package com.swift; class ArrayString { public static void main(String[] args) {

Java中String直接賦字符串和new String的區別如String str=new String("a")和String str = "a"有什麽區別？

this his The tin ase name ++ 常量池 TE 百度的面試官問 String A="ABC"; String B=new String("ABC"); 這兩個值，A,B 是否相等，如果都往HashSet裏面放，能放下嗎？答：A==B 不等，

java中如何知道一個字符串中有多少個字，把每個字打印出來，舉例

有一個 url ont chapter 書籍 whole mar strong posit （視頻下載）（全部書籍） 9.6 About string,"I am a teacher"，這個字符串中有多少個字，且分別把每個字打印出來。 /*本題的思路就是，當我有

在java中重復一個字符串n次的幾種方法

字符串 pen pla nco string 字符 turn pie new 方法一： String.format("%0" + n + "d", 0).replace("0",s); 方法二： new Strin

JAVA將圖片（本地或者網絡資源）轉為Base64字符串，將base64字符串存儲為本地圖片

.com 返回 ++ path cat 地圖 flush ++i 圖片網絡資源代碼 import java.io.ByteArrayOutputStream; import java.io.FileOutputStream; import java.io.IOExcept

java正則表達式匹配文本中想要的字符串

本地文件則表達式 red mpi col ade cnblogs ges div 需求:獲取一個本地文件中所有符合 $[MAKE_PACKAGE] 格式的字符串,並輸出到另一個文件中. public static void main(String[] args) thr

java之後臺返回json格式字符串,前臺接受並轉為json文件

length con exc != gin for idt ajax emp 　　作為一個菜鳥，做項目真的好困難呀，這兩天被一個問題困了兩天，終於解決了，但是也不算太完美。首先，先說一下問題吧，根據後臺返回的值，前臺接受並作出一個折線圖。最初，在後臺根據從數據庫中的值

黑馬基礎階段測試題：創建一個存儲字符串的集合list，向list中添加以下字符串：”C++”、”Java”、” Python”、”大數據與雲計算”。遍歷集合，將長度小於5的字符串從集合中刪除，刪除成功後，打印集合中的所有元素

cti ati pac 完成 body ava 字符 c++ rgs package com.swift; import java.util.ArrayList; import java.util.List; import java.util.ListIterator

Java時間戳與日期格式字符串的互轉

equals try catch 日期格式 cond @param 字符 equal return 上代碼: import java.text.SimpleDateFormat; import java.util.Date; public class DateUtil

Java將CST的時間字符串轉換成需要的日期格式字符串

java logs span sim orm bsp system blog html 已知得到的Date類型的變量meettingdate 的值為Sun Dec 16 10:56:34 CST ；現在要將它改為yyyy-MM-dd類型或yyyy年MM月dd日；變為y

java-ArrayList中去重復字符串或重復對象、LinkedList集合、泛型、增強for、靜態導入、可變參數、asList()方法、集合嵌套

nds 李冰冰 port 範冰冰 arrays strong sta urn 方法名 1、去除ArrayList中重復字符串元素方式　　* A:案例演示　　　　* 需求：ArrayList去除集合中字符串的重復值(字符串的內容相同) 　　　　* 思路：創建新集合方式

java sql SQLException ORA-01861 文字和格式字符串不匹配

edi log article csdn 匹配 net 字段 con views 1、錯誤描述 java.sql.SQLException:ORA-01861:文字和格式字符串不匹配 2、錯誤原因字段名為statis_date在數據庫中存儲的數據

——————————JavaScript中，對String字符串的一些操作——————————

repl 字母第一個字符 mic arr size 位置 str2 str1 —————————————&mdash

C# GetValueList 獲得字符串中開始和結束字符串中間得值列表

mat 字符串開始 true private ref uri cnblogs 字符 /// <summary> /// 獲得字符串中開始和結束字符串中間得值列表 /// </summary>

java 堆，棧，字符串

及其字符串編譯器優化堆內存 string類 osc 檢查發生 buffer public class StringDemo{ private static final String MESSAGE="taobao"; public static void m

JAVA基礎——重新認識String字符串

獲取字符串 ~~ 9.png 定義如何 als color 每次聲明深入剖析Java之String字符串在程序開發中字符串無處不在，如用戶登陸時輸入的用戶名、密碼等使用的就是字符串。在 Java 中，字符串被作為 String 類型的對象處理。 String 類

linux中常用時間和字符串之間相互轉化

時間函數 spa lin cell form time函數地理 -1 名稱在Linux中經常會遇到時間和字符串相互轉化的情形，有兩個函數專門對應相應的轉化。 1、時間轉字符串函數strftime 函數原型：size_t strftime(char *s,size_t m

練習題去除字符串中的某個給定字符串

百度 sta 給定來源搬家 lin ati ssi repl 原文發布時間為：2009-03-09 —— 來源於本人的百度文章 [由搬家工具導入]using System;//去除“askdaskaskdaskg”

譚浩強 c程序設計 8.17用遞歸法將一個整數n轉換成字符串。例如，輸入486，應輸出字符串"486"。n的位數不確定，可以是任意位數的整數。

tco xsl bof hcl mku owb kit gym code 8.17用遞歸法將一個整數n轉換成字符串。例如，輸入486，應輸出字符串"486"。n的位數不確定，可以是任意位數的整數。 #include <stdio.h>char str1[20]

Java中utf-8格式字符串的存儲方法。

相關推薦