1. 程式人生 > >JavaSE-21 字符編碼簡介

JavaSE-21 字符編碼簡介

change 其他 範圍 utf gpo sta 一個 sci 電腦

ASCII

ASCII(American Standard Code for Information Interchange,美國信息交換標準代碼)是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語和其他西歐語言。它是現今最通用的單字節編碼系統,並等同於國際標準ISO/IEC 646。

ISO-8859-1

最早的編碼,和ASCII編碼相似。屬於單字節編碼,最多能表示的字符範圍是0-255,應用於英文系列,無法表示中文。

GB2312/GBK

專門用來表示漢字,是雙字節編碼,而英文字母和ISO-8859-1一致(兼容ISO-8859-1編碼)。其中GBK編碼能夠用來同時表示繁體字和簡體字,而GB2312只能表示簡體字,GBK是兼容GB2312編碼的。

UNICODE

最統一的編碼,可以用來表示所有語言的字符,而且是定長雙字節(也有四字節的)編碼,不兼容ISO-8859-1。

UTF

由於UNICODE編碼不兼容ISO-8859-1,而且容易占用更多的空間,所以UNICODE不便於傳輸和存儲,因此而產生了UTF編碼,UTF編碼兼容ISO-8859-1編碼,同時也可以用來表示所有語言的字符。UTF編碼是不定長編碼,每一個字符的長度從1-6個字節不等。另外,UTF編碼自帶簡單的校驗功能。一般來講,英文字母都是用一個字節表示,而漢字使用三個字節(UTF-8)。

JavaSE-21 字符編碼簡介