為什麼會存在亂碼？什麼是編解碼？為什麼會有這麼多字符集？

阿新 • • 發佈：2020-10-18

有情懷，有乾貨，微信搜尋【三太子敖丙】關注這個不一樣的程式設計師。

本文 GitHub https://github.com/JavaFamily 已收錄，有一線大廠面試完整考點、資料以及我的系列文章。

前言

亂碼這個東西相信大家都遇到過，今天我的女朋友三歪就火急火燎的上來找我：“親愛的，我的idea怎麼輸出亂碼了？”

我一頓操作就給他搞好了，但是三歪不愧是蘑菇街我的女朋友，好奇心跟我是一樣樣的，隨我。

那為什麼會出現亂碼呢？

什麼是編碼，什麼是解碼？

什麼是字元碼，什麼是字符集？

為什麼要有 Unicode ？UTF-8 和 GBK 又有什麼不同呢？

三歪坐在我的腿上對我撒嬌似的說出這一連串的問題，我這個人寵粉但是更寵女朋友，所以就有了這篇文章。

為什麼會出現亂碼

我們知道計算機裡儲存的只會是 0 和 1 組成的位元組流，而僅是數字滿足不了我們的需求，我們還需要文字的處理等等，但是計算機只認識數字，所以我們需要告訴計算機什麼數字代表什麼字元。

比如我指定 0000 代表 A，0001 代表 B 這樣計算機就知道了，所以我要把 AB 這兩個字元存入計算機的話，實際儲存的就是0000 0001，其實就等於把每個字元定製一個唯一的編碼。

但是這是我的指定，不同的人想法是不同的，比如小明就喜歡 1000 表示 A ，1111 表示 B，那小明的計算機按照他指定的編碼方式儲存，就是 1000 1111，之後傳輸給我的計算機，我拿到1000 1111，按照我的編碼解出來可能就是 %& 了，這就亂碼了。

所以亂碼的本質就是編碼和解碼實現沒對應上。

有些同學可能對編碼和解碼的概念不太熟悉，我來解釋一下：

編碼：其實就是將字元按照一定的格式轉換成位元組流的過程。
解碼：就是將位元組流解析成字元。

可以看到隨意編碼的就會產生各自的計算機都無法正確解析的情況，所以需要有一個標準，大家都按那個標準來指定字元和數字的對應關係。

標準字元編碼

美國國家標準協會 ANSI 就制定了一個標準，即美國資訊交換標準程式碼（ASCII），規定了常用字符集的集合和對應的數字編號，例如 65 表示 A。

ASCII 實際上是 7 位編碼，用二進位制程式碼表示就是 0000000~1111111，不過 1 個位元組是 8 位，所以一般都用 8 位來儲存。可以看到 ASCII 代表了 128 個字元，這其實是傾美國的編碼，你看同樣講英文的英國，ASCII 上都沒英鎊的標記。

還有人家的韓文，日文等等，更別說咱們中文了。

1 個位元組最多隻能表示 256 個字元，所以對我們來說不夠用，因此需要擴充套件，像 GB2312 就是我們國家標準總局釋出的《資訊交換用漢字編碼字符集》，後來又釋出了 GBK ，這個 K 就是擴充套件的意思，在 GB2312 的基礎上又添加了很多比如繁體字等字元。

所以說等於每個國家都有自己的標準，因為語言都是不同的，各字符集的不同就導致計算機之間文件的交流非常困難，因此大家又開始了一波標準化。

像美國的 ANSI 組織制定了 ANSI 標準字元編碼，其實就是制定平臺預設的編碼，比如中國的作業系統就用 GBK ，如果是美國就用 ASCII，作業系統會預裝這些標準字符集。

不過這隻能解決一份文件一份字元編碼的情況，假設我文件裡面有日語、法語、德語、俄語、中文，你說怎麼辦？

Unicode

所以又搞了個 Unicode，又稱統一碼、萬國碼、單一碼。

Unicode 字符集涵蓋了目前人類使用的所有字元，併為每個字元進行統一編號，分配唯一的字元碼，你看這種事情總得有人做，不然就沒法統一。

這裡有幾個術語我解釋一下，讓大夥更加清晰一些。

字元：其實就像英文字母，或者我們的中文都叫字元
字符集：那就是字元和編號對應的集合
字元碼：就是字符集裡面字元對應的數字，或者說編號，比如在 ASCII 字符集裡面， A 的字元碼是 65
字元編碼：就是按照字符集中字元和數字的對映關係，轉化成位元組流的實現

對於 Unicode 而言有一點和之前的編碼不太一樣，它將字符集和編碼實現解耦了。

之前的編碼比如 ASCII 編碼、GBK 編碼等等，它們的字符集和編碼實現是綁死的，你可以理解成以前的編碼其實就是查表，有一個固定的表格裡面儲存這字元和對應固定的二進位制，比如 A 對應的編號是 65，其二進位制序列就是 01000001。

而 Unicode 不一樣，它將字符集和字元編碼實現分開了，比如 A 對應的編號是 65，但是對應的二進位制序列就不一定了，得看具體的字元編碼，如果是 UTF-8 編碼，則是 01000001，如果是 UTF-16 編碼（大端），則是 00000000 01000001。

這其實也是為什麼我們現在常用 UTF-8 而不是 UTF-16 的原因，可以看到 UTF-16 編碼儲存效率較低，最少使用兩個位元組，並且像 C 語言的很多函式都會將 0x00 位元組作為字串的停止符來解析，所以才搞了個 UTF-8，其使用 1~4 位元組為每個字元編碼，是變長的，具體如何編碼的我就不說了，隨便查一下就有。

最後

至此我們已經清晰了亂碼的根源，也知曉了為什麼會有那麼多字元編碼的出現，畢竟語言多，一開始出了個 ASCII，但是對於其他國家來說不夠用，於是都各自進行了擴充套件。

而編碼多了各個國家之間難以做到統一，不易相容，所以後來國際組織制定搞了個 Unicode 字符集，對所有字元做了統一的編排，並且為了使得編碼更加靈活把字符集和編碼實現分開來。

對了，為什麼英文都不會出現亂碼就是因為絕大部分的字符集都是基於 ASCII 擴充套件的，所以都相容 ASCII 。

本期就是應該算是一期比較有意思的科普系列，但是還是渴求你的點贊哈哈。

絮叨

敖丙把自己的面試文章整理成了一本電子書，共 1630頁！

乾貨滿滿，字字精髓。目錄如下，還有我複習時總結的面試題以及簡歷模板，現在免費送給大家。

連結:https://pan.baidu.com/s/1ZQEKJBgtYle3v-1LimcSwg 密碼:wjk6

我是敖丙，你知道的越多，你不知道的越多，感謝各位人才的：點贊、收藏和評論，我們下期見！

文章持續更新，可以微信搜一搜「 三太子敖丙 」第一時間閱讀，回覆【資料】有我準備的一線大廠面試資料和簡歷模板，本文 GitHub https://github.com/JavaFamily 已經收錄，有大廠面試完整考點，歡迎Star。

為什麼會存在亂碼？什麼是編解碼？為什麼會有這麼多字符集？

前言

為什麼會出現亂碼

標準字元編碼

Unicode

最後

絮叨

為什麼會存在亂碼？什麼是編解碼？為什麼會有這麼多字符集？

萬代稱《艾爾登法環》會比《黑魂》有更多受眾

Java 字串拼接竟然有這麼多姿勢(收藏版)

用var宣告變數，在java中居然有這麼多細節，你都瞭解麼？

全域性鎖和表鎖：給表加個欄位怎麼有這麼多阻礙？

去了位元組跳動，才知道年薪40W的測試有這麼多？

(轉）搜尋引擎竟然有這麼多用法：22種高階搜尋語法

用 AI 打破編解碼器內卷，高通最新頂會論文腦洞大開

面試了這麼多次！你不會連這套“Alibaba” P8技術官的「JAVA核心手冊」都沒刷過吧？

用keil5，STM32FO13,呼叫陣列時，初始化為0，則會出現亂碼現象

《暗黑4》和《守望先鋒2》都不會在今年發售但新會有新的COD

外媒爆料將會有更多SE遊戲登入XGP

業內記者：一旦XGP有足夠多的訂閱微軟會取消金會員

馬斯克：很快會有更多的人實現在月球上行走

SIE總裁：將來會有更多的收購

dicom 在生成dcm檔案的時候會出現亂碼的處理方法

再等一等《古墓麗影》工作室近兩年不會有太多新作

宮崎英高承諾：《艾爾登法環》會有更多內容

Python imageio讀取視訊並進行編解碼詳解

Python JSON編解碼方式原理詳解

為什麼會存在亂碼？什麼是編解碼？為什麼會有這麼多字符集？

前言

為什麼會出現亂碼

標準字元編碼

Unicode

最後

絮叨

相關推薦