從ASCII到Unicode再到UTF-8的歷史原由

阿新 • • 發佈：2018-02-04

就是支持 auto sci ext tab 用兩個計算機得到

編碼	大小	支持語言
ASCII	1個字節	英文
Unicode	2個字節（生僻字4個）	所有語言
UTF-8	1-6個字節，英文字母1個字節，漢字3個字節，生僻字4-6個字節	所有語言

具體解釋：

最早只有127個字母被編碼到計算機裏，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母z的編碼是122。

但是要處理中文顯然一個字節是不夠的，至少需要兩個字節，而且還不能和ASCII編碼沖突，所以，中國制定了GB2312編碼，用來把中文編進去。

你可以想得到的是，全世界有上百種語言，日本把日文編到Shift_JIS裏，韓國把韓文編到Euc-kr裏，各國有各國的標準，就會不可避免地出現沖突，結果就是，在多語言混合的文本中，顯示出來會有亂碼。

因此，Unicode應運而生。Unicode把所有語言都統一到一套編碼裏，這樣就不會再有亂碼問題了。

Unicode標準也在不斷發展，但最常用的是用兩個字節表示一個字符（如果要用到非常偏僻的字符，就需要4個字節）。現代操作系統和大多數編程語言都直接支持Unicode。

新的問題又出現了：如果統一成Unicode編碼，亂碼問題從此消失了。但是，如果你寫的文本基本上全部是英文的話，用Unicode編碼比ASCII編碼需要多一倍的存儲空間，在存儲和傳輸上就十分不劃算。

所以，本著節約的精神，又出現了把Unicode編碼轉化為“可變長編碼”的UTF-8編碼。UTF-8編碼把一個Unicode字符根據不同的數字大小編碼成1-6個字節，常用的英文字母被編碼成1個字節，漢字通常是3個字節，只有很生僻的字符才會被編碼成4-6個字節。如果你要傳輸的文本包含大量英文字符，用UTF-8編碼就能節省空間。

UTF-8編碼有一個額外的好處，就是ASCII編碼實際上可以被看成是UTF-8編碼的一部分，所以，大量只支持ASCII編碼的歷史遺留軟件可以在UTF-8編碼下繼續工作。

從ASCII到Unicode再到UTF-8的歷史原由

就是支持 auto sci ext tab 用兩個計算機得到編碼大小支持語言 ASCII 1個字節英文 Unicode 2個字節（生僻字4個）所有語言 UTF-8 1-6個字節，英文字母1個字節，漢字3個字節，生僻字4-6個字節所有語言

從ASCII到Unicode再到UTF-8的歷史原由

具體解釋：

從ASCII到Unicode再到UTF-8的歷史原由

編碼歷史ASCII、Unicode、utf-8和GBK

模糊查詢sql語句條件是中文在後臺從數據庫查不到結果，是英文和字母就可以，而且統一編碼為UTF-8了！！！

檢測當前的語言環境是否使用了 UTF-8 編碼（三篇文章：先用setlocale()設定編碼，再用nl_langinfo()進行檢測。locale物件可以使用langLocale.name() == "zh_CN"判斷）

Eclipse+MyEclipse開發中，將全域性編碼從GBK設定為UTF-8

MAVEN編碼從GBK改為UTF-8

php從資料庫中讀取編碼utf-8的中文內容輸出到瀏覽器顯示問號的解決方案

java中如何從字串中刪選中文字元（GBK編碼和UTF-8編碼）

Maven install [WARNING] Using platform encoding (UTF-8 actually) to copy filtered resources

eclipse xml 編碼問題 “3 字節的 UTF-8 序列的字節 3 無效”

解決UTF-8方法歸納

【編碼格式錯誤】SyntaxError: Non-UTF-8 code starting with

webapi “ObjectContent`1”類型未能序列化內容類型“application/xml; charset=utf-8”的響應正文。

刨根究底字符編碼之十一——UTF-8編碼方式與字節序標記

java讀取配置文件(properties)的時候,unicode碼轉utf-8

cocos2d-x類型轉換(CCstring int string char UTF-8互轉)

UTF-8和GBK編碼之間的區別(頁面編碼、數據庫編碼區別)以及在實際項目中的應用

eclipse編碼設置為utf-8 for mac

php開啟mbstring擴展並設置支持utf-8編碼

在MyEclipse中設置jsp頁面為默認utf-8編碼

從ASCII到Unicode再到UTF-8的歷史原由

具體解釋：

相關推薦