1. 程式人生 > 實用技巧 >ASCII碼字符集

ASCII碼字符集

為什麼有ASCII碼

計算機儲存和傳輸的資料必須是二進位制,也就是說所有的資訊都要轉換成0和1表示。在兩臺通訊裝置之間通訊的時候,比如要傳輸字元a,傳送裝置把a編碼為0和1組成的序列,併發送出去,介面裝置如何正確地的理解這個0和1序列呢?這就像兩個人之間對話一樣,如果兩個人使用的是不同的語言,那麼他們會存在溝通障礙。同樣的地,計算機裝置之間也需要統一的編碼標準,把字元編碼為統一的0和1序列,傳送之前進行二進位制編碼, 接收的裝置只要按照相同的規則解析,就可以讀取出來資訊了。統一的編碼方案成為資訊能夠正確儲存和傳輸的前提。

ASCII(American Standard Code for Information Interchange)美國資訊交換標準程式碼,它是對字母、數字、符號進行二進位制編碼的標準。一個ASCII碼長度是一個位元組,也就是8個bit,最高位是0作為校驗位,其餘7位使用0和1進行組合,所以ASCII碼共有128個。這128個字元包含33個控制字元和95個可顯示字元。0-31以及127是控制字元,包含DEL刪除,BS退格,CR回車等。32-126是可顯示字元,其中32是回車,48-57是10個阿拉伯數字,65-90是26個大寫的英文字母,97-122是26個小寫的英文字母。

ASCII碼錶格

127個ASCII字元和數字是一一對應的關係,表格中展示的為十進位制表示,在計算機傳輸和儲存中,會把他們轉換為二進位制,比如數字0的十進位制表示為48,轉換為二進位制就是00110000,在不同的裝置中互相傳輸的就是這個二進位制序列。

ASCII值ASCII字元ASCII值ASCII字元ASCII值ASCII字元ASCII值ASCII字元
0NUT32(space)64@96
1SOH33!65A97a
2STX34"66B98b
3ETX35#67C99c
4EOT36$68D100d
5ENQ37%69E101e
6ACK38&70F102f
7BEL39,71G103g
8BS40(72H104h
9HT41)73I105i
10LF42*74J106j
11VT43+75K107k
12FF44,76L108l
13CR45-77M109m
14SO46.78N110n
15SI47/79O111o
16DLE48080P112p
17DCI49181Q113q
18DC250282R114r
19DC351383S115s
20DC452484T116t
21NAK53585U117u
22SYN54686V118v
23TB55787W119w
24CAN56888X120x
25EM57989Y121y
26SUB58:90Z122z
27ESC59;91[123{
28FS60<92/124|
29GS61=93]125}
30RS62>94^126`
31US63?95_127DEL

ASCII字元侷限性

可以發現,ACSII字元最高位置0的情況下,最多表示128個字元,英文字元完全可以被編碼,如果是其他語言,字元數量多於127個如何表示呢?一些國家對ASCII碼做了擴充套件,讓最高位也參與編碼,這樣ASCII碼能表示的字元數量從128個上升到256個,這種編碼ASCII也被成為擴充套件ASCII編碼。

然而,擴充套件ASCII編碼仍然有很大侷限性,世界上有很多中語言文字,每種語言的字元數量不一,256個依然是不夠用的。漢字的數量大約接近十萬個,常用漢字大約六千個,如何實現漢字編碼呢?此類情況,其他語言也是存在。每個國家都將自己的語言編碼為某個標準,標準不統一,導致計算機裝置在傳輸資訊過程中出現亂碼。Unicode編碼的出現,它採用兩個位元組對接字元編碼,理論上可以有256*256=65536個字元,解決了編碼數量過少問題,同時,它也是通用的編碼標準,避免了資訊傳輸中亂碼問題。

Unicode標準成為了國際認可的編碼標準,但在推廣過程中受到歐美國家的反對,他們的理由很簡單,在ASCII編碼體系下,他們字元編碼僅僅需要一個位元組,而Unicode採用了兩個位元組,儲存空間佔用直接變為兩倍,同時他們所有的文字處理程式都需要重寫,工作量很大,如果採用兩個位元組編碼他們是無法接受的。網際網路的普及強烈要求統一的編碼格式,utf-8編碼後來成為了通用編碼方式。它採用變長編碼,使用1-4個位元組表示一個符號,根據符號的不同,變化位元組長度。對於ASCII碼,它在utf-8中的編碼保持不變,仍是一個位元組,原來處理ASCII字元的程式幾乎不需要改變,可以繼續使用。但對於中文來說,中文字元在utf-8中佔用3個位元組,在Unicode標準中需要兩個位元組,使用utf-8編碼後,中文資訊傳輸佔用的流量變為1.5倍。