中文編碼 1：常見中文編碼格式

阿新 • • 發佈：2019-01-19

為什麼要有中文編碼格式？

最早的ASCII碼只包括了字母、標點符號、特殊字元等127個字元。這些字元對於拉丁語系國家的人使用是足夠的，但是對於非拉丁語系國家（如中國、日本等），ASCII碼就遠遠不夠了。因此就需要編碼來表示大量的漢字字元。

常用的幾種中文編碼格式：

1、Unicode編碼

Unicode編碼通常由兩個位元組組成，稱作USC-2，個別偏僻字由四個位元組組成，稱作USC-4。前127個還表示原來ASCII碼裡的字元，只不過由一個位元組變成了兩個位元組。

優點：可以囊括多國語言，囊括了常用漢字

不足：表示一個英文字元由一個位元組變成了兩個，浪費儲存空間和傳輸速度。生僻字表示不足

2、UTF-8編碼

Unicode編碼的一種，Unicode用一些基本的保留字元制定了三套編碼方式，它們分別為UTF-8，UTF-16，UTF-32.在UTF-8中，字元是以8位序列來編碼的，用一個或幾個位元組來表示一個字元。這種方式的最大好處是UTF-8保留了ASCII字元的編碼作為它的一部分。UTF-8俗稱“萬國碼”，可以同屏顯示多語種，一個漢字通常佔用3位元組（生僻字佔6個）。為了做到國際化，網頁儘可能採用UTF-8編碼。

3、GB2312編碼

GB2312簡體中文編碼，一個漢字佔用2個位元組，在大陸是主要的編碼方式。當文章/網頁中包含繁體中文、日文、韓文等時，這些內容可能無法被正確編碼。

作用：國家簡體中文字符集，相容ASCII

位數：使用2個位元組表示，能表示7445個符號，包括6763個漢字，幾乎覆蓋所有高頻率漢字。

範圍：高位元組從A1-A7，低位元組從A1到FE。將高位元組和低位元組分別加上0xA0即可得到編碼。

4、BIG5編碼

稱為繁體中文編碼，主要在臺灣地區使用。

5、GBK編碼

作用：它是GB2312的擴充套件，加入對繁體字的支援，相容GB2312.

位數：使用2個位元組表示，可表示21886個字元。

範圍：高位元組從81到FE，低位元組從40到FE.

6、GB18030編碼

作用：它解決了中文、日文、朝鮮語等的編碼，相容GBK。

位數：它採用變位元組表示（1ASCII, 2,4位元組）。可表示27484個文字。

範圍：1位元組從00到7F；2位元組高位元組從81到FE，低位元組從40到7E和80到FE；4位元組第一三位元組從81到FE，第二四位元組從30到39.

參考：

中文編碼 1：常見中文編碼格式

中文編碼 1：常見中文編碼格式

iOS音訊學習筆記一：常見音訊封裝格式及編碼格式

Airflow 中文文件：常見問題

【H.264/AVC視訊編解碼技術詳解】二十三、幀間預測編碼(1)：幀間預測編碼的基本原理

c#字元編碼,System.Text.Encoding類,字元編碼大全：如Unicode編碼、GB18030、UTF-8，UTF-7，GB2312，ASCII，UTF32，Big5

python實戰之編碼問題：中文！永遠的痛

PHP輸出中文亂碼解決：編碼終結者

mysql無法插入中文的解決辦法：修改資料庫編碼為utf-8

Python3 編碼問題：怎麼將Unicode轉中文，以及GBK亂碼ÖÐ¹úÉÙÊýÃñ×åÌØÉ«´åÕ¯

中文亂碼之《字符編碼：ASCII，Unicode 和 UTF-8》

java中文亂碼解決之道（三）-----編碼詳情：偉大的創想---Unicode編碼

centos6.5環境下的web項目mysql編碼方式導致的中文亂碼問題

即時通訊音視訊開發（八）：常見的實時語音通訊編碼標準

json中中文為5位數字的編碼

三種常見字元編碼：ASCII、Unicode和UTF-8

JAVA幾種常見的編碼格式（轉）

OGC入門學習專欄-2.1： SWE通用資料模型編碼標準

JDBC查詢條件中包含中文，無查詢結果（編碼問題）

python下含中文字串正則表示式的編碼問題

中文亂碼解決之一 JS的編碼、解碼及C#中對應的解碼、編碼

中文編碼 1：常見中文編碼格式

相關推薦