漢字編碼 (GB2312 GBK GB18030)
GB2312
收錄簡化漢字及符號、字母、日文假名等共7445個圖形字符,其中漢字占6763個
每個符號都用兩個字節表示,每個字節均采用七位編碼表示,習慣上 第一個字節是高字節,第二個字節是低字節
GB2312的編碼範圍為2121H-777EH,與ASCII有重疊,通行方法是將GB碼兩個字節的最高位置1以示區別
GBK
由於GKB收錄的漢字較少以及配合UNICODE的實施,GBK 產生了
向下兼容GB2312
雙字節表示
GBK共收入21886個漢字和圖形符號,包括:
GB2312中的全部漢字、非漢字符號。
BIG5中的全部漢字。
其它漢字、部首、符號,共計984個。
GB18030
最新的漢字編碼字符集國家標準, 向下兼容 GBK 和 GB2312 標準
一二四字節變長編碼
一字節部分與ASCII 編碼兼容
二字節部分與GBK標準基本兼容
四字節部分包括除去二字節部分的的所有unico3.1碼位(也就是說, GB18030 編碼在碼位空間上做到了與 Unicode 標準一一對應,這一點與 UTF-8 編碼類似)
BIG5
繁體字編碼
雙字節
BIG5收錄13461個漢字和符號,包括:
符號408個
常用字5401個
次常用字7652個
CP936 (GBK)
Windows使用代碼頁(code page)來適應各個國家和地區不同編碼。
code page可以被理解為前面提到 的內碼。GBK對應的code page是CP936。
65001 #utf-8
936 #GBK
437 #美國英語
參考:
http://www.cnblogs.com/finallyliuyu/archive/2013/05/10/3071023.html
http://blog.csdn.net/liujinchengjx/article/details/1527909
漢字編碼 (GB2312 GBK GB18030)