1. 程式人生 > >utf8編碼原理詳解

utf8編碼原理詳解

很久很久以前,有一群人,他們決定用8個可以開合的電晶體來組合成不同的狀態,以表示世界上的萬物。他們認為8個開關狀態作為原子單位很好,於是他們把這稱為"位元組"。

再後來,他們又做了一些可以處理這些位元組的機器,機器開動了,可以用位元組來組合出更多的狀態,狀態開始變來變去。他們看到這樣是好的,於是它們就這機器稱為"計算機"。

開始計算機只在美國用。八位的位元組一共可以組合出256(2的8次方)種不同的狀態。

他們把其中的編號從0開始的32種狀態分別規定了特殊的用途,一但終端裝置或者印表機遇上這些約定好的位元組時,就要做一些約定的動作。遇上 00x10, 終端就換行,遇上0x07, 終端就向人們嘟嘟叫,例好遇上0x1b, 印表機就列印反白的字,對於終端就用彩色顯示字母。他們看到這樣很好,於是就把這些0x20(十進位制32)以下的位元組狀態稱為"控制碼"。

他們又把所有的空格、標點符號、數字、大小寫字母分別用連續的位元組狀態表示,一直編到了第127號,這樣計算機就可以用不同位元組來儲存英語的 文字了。大家看到這樣,都感覺很好,於是大家都把這個方案叫做 ANSI 的"Ascii"編碼(American Standard Code for Information Interchange,美國資訊互換標準程式碼)。當時世界上所有的計算機都用同樣的ASCII方案來儲存英文文字。

後來,就像建造巴比倫塔一樣,世界各地的都開始使用計算機,但是很多國家用的不是英文,他們用到的許多字母在ASCII中根本沒有,為了也可以在計算機中儲存他們的文字,他們決定採用127號之後的空位來表示這些新的字母、符號,還加入了很多畫表格時需要用下到的橫線、豎線、交叉等形狀,一直把序號編到了最後一個狀態255。從128到255這一頁的字符集被稱"擴充套件字符集"。從此之後,貪婪的人類再沒有新的狀態可以用了,美帝國主義可能沒有想到還有第三世界國家的人們也希望可以用到計算機吧!

等中國人們得到計算機時,已經沒有可以利用的位元組狀態來表示漢字,況且有6000多個常用漢字需要儲存呢。但是這難不倒智慧的中國人民,我們不客氣地把那些127號之後的奇異符號們直接取消掉,並且規定:一個小於127的字元的意義與原來相同,但兩個大於127的字元連在一起時,就表示一個漢字,前面的一個位元組(他稱之為高位元組)從0xA1用到 0xF7,後面一個位元組(低位元組)從0xA1到0xFE,這樣我們就可以組合出大約7000多個簡體漢字了。在這些編碼裡,我們還把數學符號、羅馬希臘的字母、日文的假名們都編進去了,連在 ASCII 裡本來就有的數字、標點、字母都統統重新編了兩個位元組長的編碼,這就是常說的"全形"字元,而原來在127號以下的那些就叫"半形"字元了。

中國人民看到這樣很不錯,於是就把這種漢字方案叫做"GB2312"。GB2312 是對 ASCII 的中文擴充套件。

但是中國的漢字太多了,我們很快就就發現有許多人的人名沒有辦法在這裡打出來,特別是某些很會麻煩別人的國家領導人(如朱鎔基的“鎔”字)。於是我們不得不繼續把 GB2312 沒有用到的碼位找出來老實不客氣地用上。

後來還是不夠用,於是乾脆不再要求低位元組一定是127號之後的內碼,只要第一個位元組是大於127就固定表示這是一個漢字的開始,不管後面跟的是不是擴充套件字符集裡的內容。結果擴充套件之後的編碼方案被稱為 GBK 標準,GBK 包括了 GB2312 的所有內容,同時又增加了近20000個新的漢字(包括繁體字)和符號。

後來少數民族也要用電腦了,於是我們再擴充套件,又加了幾千個新的少數民族的字,GBK 擴成了 GB18030。從此之後,中華民族的文化就可以在計算機時代中傳承了。

中國的程式設計師們看到這一系列漢字編碼的標準是好的,於是通稱他們叫做 "DBCS"(Double Byte Charecter Set 雙位元組字符集)。在DBCS系列標準裡,最大的特點是兩位元組長的漢字字元和一位元組長的英文字元並存於同一套編碼方案裡,因此他們寫的程式為了支援中文處理,必須要注意字串裡的每一個位元組的值,如果這個值是大於127的,那麼就認為一個雙位元組字符集裡的字元出現了。那時候凡是受過加持,會程式設計的計算機僧侶們都要每天念下面這個咒語數百遍:

"一個漢字算兩個英文字元!一個漢字算兩個英文字元……"

因為當時各個國家都像中國這樣搞出一套自己的編碼標準,結果互相之間誰也不懂誰的編碼,誰也不支援別人的編碼,連大陸和臺灣這樣只相隔了150海里,使用著同一種語言的兄弟地區,也分別採用了不同的 DBCS 編碼方案——當時的中國人想讓電腦顯示漢字,就必須裝上一個"漢字系統",專門用來處理漢字的顯示、輸入的問題,但是那個臺灣的愚昧封建人士寫的算命程式就必須加裝另一套支援 BIG5 編碼的什麼"倚天漢字系統"才可以用,裝錯了字元系統,顯示就會亂了套!這怎麼辦?而且世界民族之林中還有那些一時用不上電腦的窮苦人民,他們的文字又怎麼辦?

真是計算機的巴比倫塔命題啊!

正在這時,大天使加百列及時出現了——一個叫 ISO (國際標誰化組織)的國際組織決定著手解決這個問題。他們採用的方法很簡單:廢了所有的地區性編碼方案,重新搞一個包括了地球上所有文化、所有字母和符號的編碼!他們打算叫它"Universal Multiple-Octet Coded Character Set",簡稱 UCS, 俗稱 "UNICODE"。

UNICODE 開始制訂時,計算機的儲存器容量極大地發展了,空間再也不成為問題了。於是 ISO 就直接規定必須用兩個位元組,也就是16位來統一表示所有的字元,對於ascii裡的那些"半形"字元,UNICODE 包持其原編碼不變,只是將其長度由原來的8位擴充套件為16位,而其他文化和語言的字元則全部重新統一編碼。由於"半形"英文符號只需要用到低8位,所以其高 8位永遠是0,因此這種大氣的方案在儲存英文文字時會多浪費一倍的空間。

這時候,從舊社會裡走過來的程式設計師開始發現一個奇怪的現象:他們的strlen函式靠不住了,一個漢字不再是相當於兩個字元了,而是一個!是 的,從 UNICODE 開始,無論是半形的英文字母,還是全形的漢字,它們都是統一的"一個字元"!同時,也都是統一的"兩個位元組",請注意"字元"和"位元組"兩個術語的不同, "位元組"是一個8位的物理存貯單元,而"字元"則是一個文化相關的符號。在UNICODE 中,一個字元就是兩個位元組。一個漢字算兩個英文字元的時代已經快過去了。

從前多種字符集存在時,那些做多語言軟體的公司遇上過很大麻煩,他們為了在不同的國家銷售同一套軟體,就不得不在區域化軟體時也加持那個雙位元組字符集咒語,不僅要處處小心不要搞錯,還要把軟體中的文字在不同的字符集中轉來轉去。UNICODE 對於他們來說是一個很好的一攬子解決方案,於是從 Windows NT 開始,MS 趁機把它們的作業系統改了一遍,把所有的核心程式碼都改成了用 UNICODE 方式工作的版本,從這時開始,WINDOWS 系統終於無需要加裝各種本土語言系統,就可以顯示全世界上所有文化的字元了。

但是,UNICODE 在制訂時沒有考慮與任何一種現有的編碼方案保持相容,這使得 GBK 與UNICODE 在漢字的內碼編排上完全是不一樣的,沒有一種簡單的算術方法可以把文字內容從UNICODE編碼和另一種編碼進行轉換,這種轉換必須通過查表來進行。

如前所述,UNICODE 是用兩個位元組來表示為一個字元,他總共可以組合出65535不同的字元,這大概已經可以覆蓋世界上所有文化的符號。如果還不夠也沒有關係,ISO已經準備了UCS-4方案,說簡單了就是四個位元組來表示一個字元,這樣我們就可以組合出21億個不同的字元出來(最高位有其他用途),這大概可以用到銀河聯邦成立那一天吧!

UNICODE 來到時,一起到來的還有計算機網路的興起,UNICODE 如何在網路上傳輸也是一個必須考慮的問題,於是面向傳輸的眾多 UTF(UCS Transfer Format)標準出現了,顧名思義,UTF8就是每次8個位傳輸資料,而UTF16就是每次16個位,只不過為了傳輸時的可靠性,從UNICODE到 UTF時並不是直接的對應,而是要過一些演算法和規則來轉換。

受到過網路程式設計加持的計算機僧侶們都知道,在網路裡傳遞資訊時有一個很重要的問題,就是對於資料高低位的解讀方式,一些計算機是採用低位先發送的方法,例如我們PC機採用的 INTEL 架構;而另一些是採用高位先發送的方式。在網路中交換資料時,為了核對雙方對於高低位的認識是否是一致的,採用了一種很簡便的方法,就是在文字流的開始時向對方傳送一個標誌符——如果之後的文字是高位在位,那就傳送"FEFF",反之,則傳送"FFFE"。不信你可以用二進位制方式開啟一個UTF-X格式的檔案,看看開頭兩個位元組是不是這兩個位元組?

下面是Unicode和UTF-8轉換的規則

Unicode

UTF-8

0000 - 007F

0xxxxxxx

0080 - 07FF

110xxxxx 10xxxxxx

0800 - FFFF

1110xxxx 10xxxxxx 10xxxxxx

例如"漢"字的Unicode編碼是6C49。6C49在0800-FFFF之間,所以要用3位元組模板:1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進位制是:0110 1100 0100 1001,將這個位元流按三位元組模板的分段方法分為0110 110001 001001,依次代替模板中的x,得到:1110-0110 10-110001 10-001001,即E6 B1 89,這就是其UTF8的編碼。

講到這裡,我們再順便說說一個很著名的奇怪現象:當你在 windows 的記事本里新建一個檔案,輸入"聯通"兩個字之後,儲存,關閉,然後再次開啟,你會發現這兩個字已經消失了,代之的是幾個亂碼!呵呵,有人說這就是聯通之所以拼不過移動的原因。

其實這是因為GB2312編碼與UTF8編碼產生了編碼衝撞的原因。

當一個軟體開啟一個文字時,它要做的第一件事是決定這個文字究竟是使用哪種字符集的哪種編碼儲存的。軟體一般採用三種方式來決定文字的字符集和編碼:

檢測檔案頭標識,提示使用者選擇,根據一定的規則猜測

最標準的途徑是檢測文字最開頭的幾個位元組,開頭位元組 Charset/encoding,如下表:

EF BB BF UTF-8

FE FF UTF-16/UCS-2, little endian

FF FE UTF-16/UCS-2, big endian

FF FE 00 00 UTF-32/UCS-4, little endian.

00 00 FE FF UTF-32/UCS-4, big-endian.

當你新建一個文字檔案時,記事本的編碼預設是ANSI(代表系統預設編碼,在中文系統中一般是GB系列編碼), 如果你在ANSI的編碼輸入漢字,那麼他實際就是GB系列的編碼方式,在這種編碼下,"聯通"的內碼是:

c1 1100 0001

aa 1010 1010

cd 1100 1101

a8 1010 1000

注意到了嗎?第一二個位元組、第三四個位元組的起始部分的都是"110"和"10",正好與UTF8規則裡的兩位元組模板是一致的,於是當我們再次開啟記事本時,記事本就誤認為這是一個UTF8編碼的檔案,讓我們把第一個位元組的110和第二個位元組的10去掉,我們就得到了"00001 101010",再把各位對齊,補上前導的0,就得到了"0000 0000 0110 1010",不好意思,這是UNICODE的006A,也就是小寫的字母"j",而之後的兩位元組用UTF8解碼之後是0368,這個字元什麼也不是。這就是隻有"聯通"兩個字的檔案沒有辦法在記事本里正常顯示的原因。

而如果你在"聯通"之後多輸入幾個字,其他的字的編碼不見得又恰好是110和10開始的位元組,這樣再次開啟時,記事本就不會堅持這是一個utf8編碼的檔案,而會用ANSI的方式解讀之,這時亂碼又不

相關推薦

utf8編碼原理

很久很久以前,有一群人,他們決定用8個可以開合的電晶體來組合成不同的狀態,以表示世界上的萬物。他們認為8個開關狀態作為原子單位很好,於是他們把這稱為"位元組"。 再後來,他們又做了一些可以處理這些位元組的機器,機器開動了,可以用位元組來組合出更多的狀態,狀態開始變來變去

編碼原理(一)----簡介

傳輸 冗余 shadow 溫習 自己 ext 區域 興趣 圖片 本節開始,給大家系列介紹一下關於編碼原理的相關知識,可能會涉及到部分算法的知識,也就意味著會相對枯燥一些,筆者盡自己所能,努力的追求簡單,同時把原理清晰的呈現給大家。 一、編碼 編碼已經是一個老聲長談的

編碼原理(二)---變換編碼

mar 關於 詳解 tex 描述 原理 學習 編碼原理 watermark 本篇介紹編碼原理中的變換編碼。 一、變換的目的和作用: 變換編碼的作用是將空間域描述的圖像信號變換到頻率域,然後對變換後的系數進行編碼處理。一般來說,圖像在空間上具有較強的相關性,變換到頻率

編碼原理(三)---量化

進一步 mark 新的 dct 說明 一點 註意 cto water 本節開始介紹編碼過程中的量化環節。還記得上一篇的變換嗎?變換之後得到了一個新的矩陣,一個經過從空域變換到頻域的一個矩陣。那麽,量化呢,就是基於變換後得到的矩陣,再做進一步的處理,本質也就是進一步的壓縮。

編碼原理(四)---之字形掃描

便是 集中 img 詳解 工作 -- 漢字 如何 編碼原理 上一篇我們講到,經過量化後得到了諸多零值和整數值,本篇接下來講講編碼過程中過對這些值如何組織和處理,那就是ZigZag掃描嘍。 一、簡介 ZigZag掃描也稱作之字形掃描,何以得此稱謂,是因為其掃描的路徑特

urlencode()與urldecode()函式字元編碼原理

其原理就是把中文字元轉換為十六進位制並按某種規則進行字串組合,實現字元的編碼與解編碼,保證URL資料傳遞過程中字元的完整性和相容性,主要討論中文字元的編碼情況。 一,FireFox瀏覽器編碼中文字元 在Firefox瀏覽器下如果輸入中文字元,將會自動實現URL編碼,如下 按下Enter鍵前 按下Ente

資料結構-2-哈夫曼樹與哈夫曼編碼 原理

 首先,介紹下什麼是哈夫曼樹。哈夫曼樹又稱最優二叉樹, 是一種帶權路徑長度最短的二叉樹。所謂樹的帶權路徑長度,就是樹中所有的葉結點 的權值乘上其到根結點的 路徑長度(若根結點為0層,葉結點到根結點的路徑長度 為葉結點的層數)。樹的帶權路徑長度記為WPL= (W1*L1+W

[自編碼器] [稀疏自編碼器] Auto Encoder原理

alt mage auto ali 技術 14. 大牛 pca center   自編碼器是一種有效的提取特征的方法,與PCA無監督降維不同,它實際上是獨立於有監督、無監督算法外的自監督算法,Hinton大牛主要就是搞這塊的,比如被他當做寶貝的玻爾茲曼機... 下面這個PP

磁盤陣列 RAID 技術原理

十分 單獨 很好 不同的 raid1 miss 和數 會同 帶寬 RAID一頁通整理所有RAID技術、原理並配合相應RAID圖解,給所有存儲新人提供一個迅速學習、理解RAID技術的網上資源庫,本文將持續更新,歡迎大家補充及投稿。中國存儲網一如既往為廣大存儲界朋友提供免費、精

解決ajax跨域的方法原理之Cors方法

詳細 不同 htm 渲染 jsonp del 需要 methods href 1、神馬是跨域(Cross Domain) 對於端口和協議的不同,只能通過後臺來解決。 一句話:同一個ip、同一個網絡協議、同一個端口,三者都滿足就是同一個域,否則就是 跨域問題了。而為

Nginx+Php-fpm運行原理

pop 圖片 ron 什麽 地址 pan webserver family tid 一、代理與反向代理 現實生活中的例子 1、正向代理:訪問google.com 如上圖,因為google被墻,我們需要vpnFQ才能訪問google.com。 vpn對於“我們”來說,是可

虛擬化技術基礎原理

虛擬化技術基礎原理詳解DISK : IO調度模式 CFQ deadline anticipatory NOOP/sys/block/<device>/queue/schedulerMemory: MMU TLB vm.swappiness={0..100},使用交換分區的

常用 JavaScript 小技巧及原理

this lin slice pen global 轉化 script lis fun 善於利用JS中的小知識的利用,可以很簡潔的編寫代碼 1. 使用!!模擬Boolean()函數 原理:邏輯非操作一個數據對象時,會先將數據對象轉換為布爾值,然後取反,兩個!!重復取反,就實

Storm概念、原理及其應用(一)BaseStorm

when 結構 tails 並發數 vm 虛擬機 cif 異步 優勢 name 本文借鑒官文,添加了一些解釋和看法,其中有些理解,寫的比較粗糙,有問題的地方希望大家指出。寫這篇文章,是想把一些官文和資料中基礎、重點拿出來,能總結出便於大家理解的話語。與大多數“wordc

主成分分析(PCA)原理(轉載)

增加 信息 什麽 之前 repl 神奇 cto gmail 協方差 一、PCA簡介 1. 相關背景 上完陳恩紅老師的《機器學習與知識發現》和季海波老師的《矩陣代數》兩門課之後,頗有體會。最近在做主成分分析和奇異值分解方面的項目,所以記錄一下心得體會。

lvs和keeplived的工作原理

lvs+keeplived的工作原理一、lvs的工作原理 使用集群的技術和liunx的操作系統實現一個高性能、高可用的服務器。可伸縮性、可靠性、很好的管理性。 特點:可伸縮網絡服務的幾種結構,它們都需要一個前端的負載調度器(或者多個進行主從備份)。我們先分析實現虛擬網絡服務的主要技術,指出IP負載均衡技術

js中幾種實用的跨域方法原理

自身 標簽 cdc 返回 屬性和方法 插入 實用 封裝 判斷 這裏說的js跨域是指通過js在不同的域之間進行數據傳輸或通信,比如用ajax向一個不同的域請求數據,或者通過js獲取頁面中不同域的框架中(iframe)的數據。只要協議、域名、端口有任何一個不同, 都被當作是不同

http原理

tor keep 接受 地址 lru structure 格式 dns 請求方式 1. HTTP簡介 HTTP協議(HyperText Transfer Protocol,超文本傳輸協議)是用於從WWW服務器傳輸超文本到本地瀏覽器的傳送協議。它可以使瀏覽器

HTTP2.0 原理

不依賴 href 漸進 pre new 進制 四個步驟 回來 stream 影響一個網絡請求的因素主要有兩個,帶寬和延遲。今天的網絡基礎建設已經使得帶寬得到極大的提升,大部分時候都是延遲在影響響應速度。連接無法復用連接無法復用會導致每次請求都經歷三次握手和慢啟動。三次握手在

css-浮動與清除浮動的原理(清除浮動的原理你知道嗎)

alt col ges mage all strong splay height http float元素A的特點: 脫離文檔流 靠向left或right float元素會和塊盒子重疊 準確來說,是塊盒子和A重疊,但塊盒子內容會浮動在A周圍 不會和inline元素重