UTF8、UTF16、UTF16-LE、UTF16-BE、UTF32都是些什麼？

阿新 • • 發佈：2018-12-24

下述內容大部分引用自CSDN：

Unicode 是 unicode.org 制定的編碼標準，目前得到了絕大部分作業系統和程式語言的支援。unicode.org 官方對 Unicode 的定義是：Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language。可見，Unicode 所做的是為每個字元定義了一個相應的數字表示。比如，“a”的 Unicode 值是 0x0061,“一”的 Unicode 值是 0x4E00，這是最簡單的情況，每個字元用2個位元組表示。

unicode.org 定義了百萬個以上的字元，如果將所有的字元用統一的格式表示，需要的是 4 個位元組。“a”的 Unicode 表示就會變成 0x00000061，而“一“的 Unicode 值是 0x00004E00。實際上，這就是 UTF32，Linux 作業系統上所使用的 Unicode 方案。

但是，仔細分析可以發現，其實絕大部分字元只使用 2 個位元組就可以表示了。英文的 Unicode 範圍是 0x0000-0x007F，中文的 Unicode 範圍是 0x4E00-0x9F**，真正需要擴充套件到 4 個位元組來表示的字元少之又少，所以有些系統直接使用 2 個位元組來表示 Unicode。比如 Windows 系統上，Unicode 就是兩個位元組的。對於那些需要 4 個位元組才能表示的字元，使用一種代理的手法來擴充套件(其實就是在低兩個位元組上做一個標記，表示這是一個代理，需要連線上隨後的兩個位元組，才能組成一個字元)。這樣的好處是大量的節約了存取空間，也提高了處理的速度。這種 Unicode 表示方法就是 UTF16。一般在 Windows 平臺上，提到 Unicode，那就是指 UTF16 了。

至於 UTF16-LE 和 UTF16-BE，則與計算機的 CPU 構架有關。LE 指 Little Endian，而 BE 指 Big Endian。由於 UTF16 是雙位元組編碼，所以兩個位元組儲存時哪個在前，哪個在後關係到解析出字元的結果。至於為什麼會出現 BE 和 LE 的編碼，則是由於歷史原因造成的：在 Mac 和 PC 機上，對位元組順序的理解是不一致的。如果一個檔案不明確說明 UTF16 使用的是 BE 還是 LE，那麼就需要通過 BOM 來指明瞭。我們一般的 X86 系統都是 Little Endian 的，可以認為 UTF16=UTF16-LE。

由於對於歐洲和北美，實際上使用的編碼範圍在 0x0000-0x00FF 之間，只需要一個字元就可以表示所有的字元。即使是使用 UTF16 來作為記憶體的存取方式，還是會帶來巨大的空間浪費，因此就有了 UTF8 的編碼方式。UTF8 是一個可變長度字元編碼，它同時是一個字首碼，字首碼的特徵是，編碼系統中的任意一個合法的碼不會是另外一個碼的字首，所以 UTF8 不需要指定位元組序。一個 UTF8 編碼可以用 1~6 個位元組來表示，將第一個位元組的前幾個位元設定為 1 來指定這個字元佔用幾個位元，比如一個兩位元組的字元的編碼，第一位是 110xxxxx，第二位是 10xxxxxx，而一個六位元組字元的編碼是這樣的：1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx，所以 UTF-8 最多能編碼 231 個字元。所以對於只需要1個位元組的字元，就使用一個位元組。對於中日韓等原本需要兩個位元組才能表示的字元，則通過一個UTF16－UTF8 的演算法實現相互之間的轉換，一般需要 3 個位元組才能表示。UTF8 使用的演算法很有意思，大致對映關係如下：

Unicode編碼	UTF-8編碼（二進位制）
U+0000 – U+007F	0xxxxxxx
U+0080 – U+07FF	110xxxxx 10xxxxxx
U+0800 – U+FFFF	1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

由於 UTF8 可以方便的轉換為 UTF16 和 UTF32，而且 UTF8 在每個作業系統平臺上的實現都是一樣的，也不存在跨平臺的問題，所以 UTF8 成為跨平臺的 Unicode 很好的解決方案。當然，對於中文來說，由於每個字元需要 3 個位元組才能表示，還是有點浪費的。

UTF8、UTF16、UTF16-LE、UTF16-BE、UTF32都是些什麼？

下述內容大部分引用自CSDN： Unicode 是 unicode.org 制定的編碼標準，目前得到了絕大部分作業系統和程式語言的支援。unicode.org 官方對 Unicode 的定義是：Unicode provides a unique number for every

針對iPhone的pt、Android的dp、HTML的css像素與dpr、設計尺寸和物理像素的淺分析

display 基本 stand 理解 android開發 height 請問技術 -a 　　最近被一朋友問到：css中設置一DOM的height：65px，請問顯示的高度是否和Android的65dp的元素等高？腦子裏瞬間閃現了一堆的概念，如dpr，ppi，dp，pt等

Struts1應用、實現簡單計算器、使用DispatchAction、顯示友好的報錯信息、使用動態Form簡化開發

實體類 ica setattr sources 建立 -s number asc rlogin 實現簡單的支持加、減、乘、除的計算器復制一份Struts1Demo改動：Struts1Calc 方案1： Struts1Calc 創建ActionForm： CalcFor

bos 第4 (區域excel批量導入、區域通用分頁查詢、分區的添加、分區多條件分頁查詢、分區導出excel)

sea htm 不能長安基金會格式 address ret body BOS項目筆記第4天今天內容安排： 1、區域批量導入功能 jQuery OCUpload（一鍵上傳插件）、apache POI、pinyin4j 2、實現區域的分頁查詢 3、對分頁代碼重構

數據結構（嚴蔚敏、吳偉民）——讀書筆記-2、線性表及其基本運算、順序存儲結構

content pri 線性時間復雜度 length 將他 ron 個數 p s 第二章線性表 2.1 線性表及其基本運算 2.2 線性表的順序存儲結構 2.3 線性表的鏈式存儲結構 1、線性表：是n個數據元素的有限序列。

python json及mysql——讀取json文件存sql、數據庫日期類型轉換、終端操縱mysql及python codecs讀取大文件問題

temp extra log urn xtra mysql 程序 pre 安裝mysql preface: 近期幫師兄處理json文件，須要讀到數據庫裏面，以備其興許從數據庫讀取數據。數據是關於yelp站點裏面的: https://github.com/Yelp/d

git 查看遠程分支、本地分支、創建分支、把分支推到遠程repository、刪除本地分支

cli one cmd util ace http span toc tor git 查看遠程分支、本地分支、創建分支、把分支推到遠程repository、刪除本地分支 [plain] view plain copy $ git branch -

在Android中使App高速、簡單地支持新浪微博、微信、QQ、facebook等十幾個主流社交平臺的分享功能

分析 ont renren androidm mod 執行 xen 12px 操作前言在如今的APP或者遊戲中，分享功能差點兒已經成為標配。分享功能不但能夠滿足用戶的需求。也能夠為產品帶來很多其它的用戶，甚至能夠對用戶的行為、活躍度、年齡段等情況進行數據統計，使得軟

JavaScript學習總結（三、函數聲明和表達式、this、閉包和引用、arguments對象、函數間傳遞參數）

rem [1] incr foo i++ scrip erro ren 推薦一、函數聲明和表達式函數聲明： function test() {}; test(); //運行正常 function test() {}; 函數表達式： var test = fun

共享法拉利、購物車、遛娃車……不是所有帶輪子的都能“走”下去

共享法拉利共享經濟到底有多熱？看看現在烏煙瘴氣、花樣百出的共享經濟項目就能知曉。除了共享打車、共享單車、共享充電寶等已經有大筆融資進賬，且已經展現自身潛力並對大眾生活產生極大影響的項目外，共享籃球、共享馬紮等不知所謂的項目也來湊熱鬧。甚至很多創業者認為只要是有“輪子”的共享經濟項目，就都能一直“走”下去。於是

gulp 環境配置——cdn地址、接口請求地址自動添加、seajs混淆壓縮等

index 啟動根據 mce 靜態設置 live build file 一、src目錄結構 ├─statics│ ├─css│ │ ├─common│ │ └─pages│ ├─img│ │ ├─common│ │ └─pages│ └─js│

Java、javax、org、sun、Java.util等常用包的區別、詳解、實例

href etl 關系型常用企業擴展數據源國際存儲 Java、javax、org、sun包都是jdk提供的類包，且都是在rt.jar中。rt.jar是JAVA基礎類庫（java核心框架中很重要的包），包含lang在內的大部分功能，而且rt.jar默認就在根cla

《React-Native系列》3、RN與native交互之Callback、Promise

pan resolv str string callback 多次調用 modules 函數等待接著上一篇《React-Native系列》RN與native交互與數據傳遞，我們接下來研究另外的兩種RN與Native交互的機制一、Callback機制首先Calllba

9、C#裏面的關系表達式、邏輯表達式

c#在C#語言的編程中，經常會用到關系表達式和邏輯表達式，或者二者的混合運用。1、關系表達式是由關系運算符組成的。比如：>、<、>=、<=、==、!=。運用這幾個運算符構成的表達式就叫做關系表達式。舉例如下：int number_01;int number_02;//輸入number_

java移動文件夾、慎用java file.renameTo(f)方法、 java從一個目錄復制文件到另一個目錄下、 java代碼完成刪除文件、文件夾、

不存在 art 我的電腦 lan nbsp 文件刪除文件 csdn 結果 java移動文件夾（包含子文件和子文件夾）： http://blog.csdn.net/yongh701/article/details/45070353 慎用java file.rename

Python基礎知識進階（五---2）----程序基本結構、簡單分支、異常處理、三大實例分析、基本循環結構、通用循環構造方法、死循環嵌套循環、布爾表達式

方法算法嵌套構造方法決策樹輸入繼續實例控制上一篇隨筆寫的內容有點多了，決定分成兩節，不然自己看的時候也頭疼。三者最大實例: 分支結構可以改變程序的控制流，算法不再是單調的一步步順序執行。　　　　假設：以找出三個數字中最大者的程序設計為例。　　　　　

相對和絕對路徑、cd命令、創建和刪除目錄mkdir/rmdir 、rm命令

linux cd 目錄相對和絕對路徑：相對路徑：相對當前目錄所在的路徑，不是由根開頭絕對路徑：從根開始的目錄無論從哪個用戶下都能通過絕對路徑找到配置文件pwd：查看當前所在目錄cd命令：cd - 表示你上一次所在的用戶目錄,起交互作用cd　　　　進入當前用戶的家目錄cd ~

布爾類型、操作符別名、C++函數、動態內存分配（newdelete）、引用（day02）

color 返回 void double 強制也會了解關系指針六 C++的布爾類型 1 bool類型是C++中基本類型，專門表示邏輯值:true/false 2 bool在內存上占一個字節：1表示true，0表示false 3 bool類型可以接收任意類型和表達

設計一個程序，有一個虛擬存儲區和內存工作區，實現下述三種算法中的任意兩種，計算訪問命中率（命中率=1-頁面失效次數/頁地址流長度）。附加要求：能夠顯示頁面置換過程。算法包括：先進先出的算法（FIFO）、最少使用算法（LFU）、最近未使用算法（NUR）

== oat 程序表示隊列 ini ++ 等待進程第一部分。。。 #include <cstdlib>#include<conio.h> #include<stdio.h>#include<stdlib.h>#incl

java 驗證手機號碼、電話號碼（包括最新的電信、聯通和移動號碼）

-s 轉義電信號 auth input sim pem csharp class 一、目前的號碼段（2017-06-01更新）二、代碼 package com.linbilin.test; import java.util.regex.Pattern;

UTF8、UTF16、UTF16-LE、UTF16-BE、UTF32都是些什麼？

相關推薦