Unicode 和 UTF-8 有什麼區別？

阿新 • • 發佈：2020-11-05

簡單來說：

Unicode 是「字符集」
UTF-8 是「編碼規則」

其中：

字符集：為每一個「字元」分配一個唯一的 ID（學名為碼位 / 碼點 / Code Point）

編碼規則：將「碼位」轉換為位元組序列的規則（編碼/解碼可以理解為加密/解密的過程）

廣義的 Unicode 是一個標準，定義了一個字符集以及一系列的編碼規則，即 Unicode 字符集和 UTF-8、UTF-16、UTF-32 等等編碼……

Unicode 字符集為每一個字元分配一個碼位，例如「知」的碼位是 30693，記作 U+77E5（30693 的十六進位制為 0x77E5）。

UTF-8 顧名思義，是一套以 8 位為一個編碼單位的可變長編碼。會將一個碼位編碼為 1 到 4 個位元組：

U+ 0000 ~ U+  007F: 0XXXXXXX

U+ 0080 ~ U+  07FF: 110XXXXX 10XXXXXX

U+ 0800 ~ U+  FFFF: 1110XXXX 10XXXXXX 10XXXXXX

U+10000 ~ U+10FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

根據上表中的編碼規則，之前的「知」字的碼位 U+77E5 屬於第三行的範圍：

       7    7    E    5

     0111 0111 1110 0101    二進位制的 77E5

--------------------------

　　0111   011111   100101 二進位制的 77E5

1110XXXX 10XXXXXX 10XXXXXX 模版（上表第三行）

11100111 10011111 10100101 代入模版

 E   7    9   F    A   5

這就是將 U+77E5 按照 UTF-8 編碼為位元組序列 E79FA5 的過程。反之亦然。

轉自：https://www.zhihu.com/question/23374078

Unicode 和 UTF-8 有什麼區別？

簡單來說： Unicode 是「字符集」 UTF-8 是「編碼規則」其中：字符集：為每一個「字元」分配一個唯一的 ID（學名為碼位 / 碼點 / Code Point）

Unicode和UTF-8的區別

Unicode和Utf-8的區別 ISO/Unicode組織共同釋出能夠溝唯一地表示各種語言中的字元標準，通常情況下，我們將一個標準中能夠表示的所有字元的集合稱為字符集。通常，我們稱ISO/Unicode所定義的字符集為Unicode。在Unic

字元編碼中ASCII、Unicode和UTF-8的區別

最早只有127個字母被編碼到計算機裡，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母z的編碼是122。

字元編碼筆記：ASCII，Unicode 和 UTF-8

作者：阮一峰日期：2007年10月28日今天中午，我突然想搞清楚 Unicode 和 UTF-8 之間的關係，就開始查資料。

Unicode 和 UTF-8 之間的關係

今天中午，我突然想搞清楚 Unicode 和 UTF-8 之間的關係，就開始查資料。這個問題比我想象的複雜，午飯後一直看到晚上9點，才算初步搞清楚。

java Unicode和UTF-8之間轉換例項

utf-8轉unicode public static String utf8ToUnicode(String inStr) { char[] myBuffer = inStr.toCharArray();

ASCII，Unicode 和 UTF-8

字元編碼筆記：ASCII，Unicode 和 UTF-8（轉）作者：阮一峰日期： 2007年10月28日

VC++下漢字GBK轉UNICODE和UTF-8 原理實現

技術標籤：程式設計技巧unicode字串分享一個讀取GBK和UNICODE互轉對照表檔案形式，來實現漢字GBK轉UNICODE和UTF-8 ；

unicode和utf-8互轉【轉】

擔心找不到，所以從原來作者地方轉了一份文章轉自：https://www.cnblogs.com/cthon/p/9297232.html

Java8與JDK8和JDK1.8有什麼區別?

https://www.cnblogs.com/biggw/p/11776294.html JDK版本與發行時間版本名稱發行日期 JDK 1.0 Oak(橡樹)

Python中的Unicode編碼和UTF-8編碼

字元編碼因為計算機只能處理數字，如果要處理文字，就必須先把文字轉換為數字才能處理。

GBK和UTF-8文字編碼的區別

GBK和UTF-8文字編碼的區別 UTF-8是一種國際化標準的文字編碼，GBK的存在是為了中國國情而創造的

例項探究字元編碼：unicode，utf-8，default，gb2312 的區別

最近做郵件收發，不同的郵件系統間可能會出現編碼問題，迫使我重新回來研究一下字元的編碼問題，unicode，utf-8，gb2312這些編碼格式都是我們熟知的，default 編碼格式是哪一種呢？我們用例項來看看：

utf-8和utf-8-sig的區別

解決：utf-8 改為utf-8-sig 區別如下： 1、”utf-8“ 是以位元組為編碼單元,它的位元組順序在所有系統中都是一樣的,沒有位元組序問題,因此它不需要BOM,所以當用\"utf-8\"編碼方式讀取帶有BOM的檔案時,它會把BOM當做是

字元編碼-Unicode、Utf-8 筆記

Unicode 將世界上所有的符號都納入其中。每一個符號都給予一個獨一無二的編碼，那麼亂碼問題就會消失。這就是 Unicode，就像它的名字都表示的，這是一種所有符號的編碼

Java HashMap 和 ConcurrentHashMap 以及JDK 1.7 和 1.8 的區別

【ZZ：https://blog.csdn.net/weixin_44460333/article/details/86770169】前言 Map 這樣的Key Value在軟體開發中是非常經典的結構，常用於在記憶體中存放資料。

Python新建專案自動新增介紹和utf-8編碼的方法

你是不是覺得每次新建專案都要寫一次# coding:utf-8，感覺特煩人吶！懶(fu)人(li)教程來啦，先看效果圖吧

python unicode、utf-8、gbk編碼與解碼展示

encode()：編碼 decode()：解碼 repr()：返回一個可以用來表示物件的可列印的字串 [oracle@10-248-57-246 ~]$ locale

mbcs、unicode，UTF-8、UTF-16等的轉換

程式碼摘自網路：（https://blog.csdn.net/a33445621/article/details/71127745） /* -----------------內碼轉換------------------------------------- */

C語言 windows下Ansi和UTF-8編碼格式的轉換

　當我們使用MinGW-w64作為編譯器在windows系統環境下進行C語言程式設計時，如果原始碼檔案（.c）儲存格式為Ansi格式，則在列印漢字時不會出現亂碼；反之，如果我們使用UTF-8格式儲存，則會出現亂碼，需要在編譯時

Unicode 和 UTF-8 有什麼區別？

相關推薦