為什麼會存在亂碼?什麼是編解碼?為什麼會有這麼多字符集?
有情懷,有乾貨,微信搜尋【三太子敖丙】關注這個不一樣的程式設計師。
本文 GitHub https://github.com/JavaFamily 已收錄,有一線大廠面試完整考點、資料以及我的系列文章。
前言
亂碼這個東西相信大家都遇到過,今天我的女朋友三歪就火急火燎的上來找我:“親愛的,我的idea怎麼輸出亂碼了?”
我一頓操作就給他搞好了,但是三歪不愧是蘑菇街我的女朋友,好奇心跟我是一樣樣的,隨我。
那為什麼會出現亂碼呢?
什麼是編碼,什麼是解碼?
什麼是字元碼,什麼是字符集?
為什麼要有 Unicode ?UTF-8 和 GBK 又有什麼不同呢?
三歪坐在我的腿上對我撒嬌似的說出這一連串的問題,我這個人寵粉但是更寵女朋友,所以就有了這篇文章。
為什麼會出現亂碼
我們知道計算機裡儲存的只會是 0 和 1 組成的位元組流,而僅是數字滿足不了我們的需求,我們還需要文字的處理等等,但是計算機只認識數字,所以我們需要告訴計算機什麼數字代表什麼字元。
比如我指定 0000 代表 A,0001 代表 B 這樣計算機就知道了,所以我要把 AB 這兩個字元存入計算機的話,實際儲存的就是0000 0001
,其實就等於把每個字元定製一個唯一的編碼。
但是這是我的指定,不同的人想法是不同的,比如小明就喜歡 1000 表示 A ,1111 表示 B,那小明的計算機按照他指定的編碼方式儲存,就是 1000 1111
,之後傳輸給我的計算機,我拿到1000 1111
,按照我的編碼解出來可能就是 %& 了,這就亂碼了。
所以亂碼的本質就是編碼和解碼實現沒對應上。
有些同學可能對編碼和解碼的概念不太熟悉,我來解釋一下:
-
編碼:其實就是將字元按照一定的格式轉換成位元組流的過程。 -
解碼:就是將位元組流解析成字元。
可以看到隨意編碼的就會產生各自的計算機都無法正確解析的情況,所以需要有一個標準,大家都按那個標準來指定字元和數字的對應關係。
標準字元編碼
美國國家標準協會 ANSI 就制定了一個標準,即美國資訊交換標準程式碼(ASCII),規定了常用字符集的集合和對應的數字編號,例如 65 表示 A。
ASCII 實際上是 7 位編碼,用二進位制程式碼表示就是 0000000~1111111,不過 1 個位元組是 8 位,所以一般都用 8 位來儲存。可以看到 ASCII 代表了 128 個字元,這其實是傾美國的編碼,你看同樣講英文的英國,ASCII 上都沒英鎊的標記。
還有人家的韓文,日文等等,更別說咱們中文了。
1 個位元組最多隻能表示 256 個字元,所以對我們來說不夠用,因此需要擴充套件,像 GB2312 就是我們國家標準總局釋出的《資訊交換用漢字編碼字符集》,後來又釋出了 GBK ,這個 K 就是擴充套件的意思,在 GB2312 的基礎上又添加了很多比如繁體字等字元。
所以說等於每個國家都有自己的標準,因為語言都是不同的,各字符集的不同就導致計算機之間文件的交流非常困難,因此大家又開始了一波標準化。
像美國的 ANSI 組織制定了 ANSI 標準字元編碼,其實就是制定平臺預設的編碼,比如中國的作業系統就用 GBK ,如果是美國就用 ASCII,作業系統會預裝這些標準字符集。
不過這隻能解決一份文件一份字元編碼的情況,假設我文件裡面有日語、法語、德語、俄語、中文,你說怎麼辦?
Unicode
所以又搞了個 Unicode,又稱統一碼、萬國碼、單一碼。
Unicode 字符集涵蓋了目前人類使用的所有字元,併為每個字元進行統一編號,分配唯一的字元碼,你看這種事情總得有人做,不然就沒法統一。
這裡有幾個術語我解釋一下,讓大夥更加清晰一些。
-
字元:其實就像英文字母,或者我們的中文都叫字元 -
字符集:那就是字元和編號對應的集合 -
字元碼:就是字符集裡面字元對應的數字,或者說編號,比如在 ASCII 字符集裡面, A 的字元碼是 65 -
字元編碼:就是按照字符集中字元和數字的對映關係,轉化成位元組流的實現
對於 Unicode 而言有一點和之前的編碼不太一樣,它將字符集和編碼實現解耦了。
之前的編碼比如 ASCII 編碼、GBK 編碼等等,它們的字符集和編碼實現是綁死的,你可以理解成以前的編碼其實就是查表,有一個固定的表格裡面儲存這字元和對應固定的二進位制,比如 A 對應的編號是 65,其二進位制序列就是 01000001。
而 Unicode 不一樣,它將字符集和字元編碼實現分開了,比如 A 對應的編號是 65,但是對應的二進位制序列就不一定了,得看具體的字元編碼,如果是 UTF-8 編碼,則是 01000001,如果是 UTF-16 編碼(大端),則是 00000000 01000001
。
這其實也是為什麼我們現在常用 UTF-8 而不是 UTF-16 的原因,可以看到 UTF-16 編碼儲存效率較低,最少使用兩個位元組,並且像 C 語言的很多函式都會將 0x00 位元組作為字串的停止符來解析,所以才搞了個 UTF-8,其使用 1~4 位元組為每個字元編碼,是變長的,具體如何編碼的我就不說了,隨便查一下就有。
最後
至此我們已經清晰了亂碼的根源,也知曉了為什麼會有那麼多字元編碼的出現,畢竟語言多,一開始出了個 ASCII,但是對於其他國家來說不夠用,於是都各自進行了擴充套件。
而編碼多了各個國家之間難以做到統一,不易相容,所以後來國際組織制定搞了個 Unicode 字符集,對所有字元做了統一的編排,並且為了使得編碼更加靈活把字符集和編碼實現分開來。
對了,為什麼英文都不會出現亂碼就是因為絕大部分的字符集都是基於 ASCII 擴充套件的,所以都相容 ASCII 。
本期就是應該算是一期比較有意思的科普系列,但是還是渴求你的點贊哈哈。
絮叨
敖丙把自己的面試文章整理成了一本電子書,共 1630頁!
乾貨滿滿,字字精髓。目錄如下,還有我複習時總結的面試題以及簡歷模板,現在免費送給大家。
連結:https://pan.baidu.com/s/1ZQEKJBgtYle3v-1LimcSwg 密碼:wjk6
我是敖丙,你知道的越多,你不知道的越多,感謝各位人才的:點贊、收藏和評論,我們下期見!
文章持續更新,可以微信搜一搜「 三太子敖丙 」第一時間閱讀,回覆【資料】有我準備的一線大廠面試資料和簡歷模板,本文 GitHub https://github.com/JavaFamily 已經收錄,有大廠面試完整考點,歡迎Star。