1. 程式人生 > >ASSCII GB2312 Unicode UTF-8

ASSCII GB2312 Unicode UTF-8

處理 文件處理 pos 系統 常用 utf 字符編碼 硬件 中文註釋

前序:
經常被各種字符編碼搞混淆,尤其在涉及到文件處理和文件傳輸,以及中文註釋等時,特精簡總結下常用的字符編碼,以便後記。

ASSCII:
最早、最精簡的字符編碼,127個字符,大小寫、數字、符號等;
單字節;

GB2312:
加入中文集,不與ASSCII沖突;

Unicode:
實現多國家的編碼,2-4字節;
常用2字節,生僻的用4字節;
兼容ASCII;
常用,但帶來空間和內存的消耗;

UTF-8:
1-6字節;
英文1個字節,中文3個字節;
兼容ASSCII;

計算機系統常用編碼工作方式:
計算機內存中統一使用Unicode;當需要保存到硬盤或者進行傳輸的時候,轉換為TTF-8;
比如從記事本打開編輯時,文件從UTF-8字符轉化為Unicode到內存中,當編輯完以後,再轉化為UTF-8到文件,到硬件中。
瀏覽網頁時,服務器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器(由於對網頁不是很懂,暫時沒法理解);

ASSCII GB2312 Unicode UTF-8