1. 程式人生 > >ASCII碼專題

ASCII碼專題

應該 存儲 建立 格式 行存儲 換行 工作量 rs232 tro

ASCII(American Standard Code for Information Interchange,美國信息互換標準代碼)是一套基於拉丁字母的字符編碼,共收錄了 128 個字符,用一個字節就可以存儲,它等同於國際標準 ISO/IEC 646。ASCII 規範於 1967 年第一次發布,最後一次更新是在 1986 年,它包含了 33 個控制字符(具有某些特殊功能但是無法顯示的字符)和 95 個可顯示字符。

ASCII碼表

二進制十進制十六進制縮寫/字符解釋
00000000 0 00 NUL (NULL) 空字符
00000001 1 01 SOH (Start Of Headling) 標題開始
00000010 2 02 STX (Start Of Text) 正文開始
00000011 3 03 ETX (End Of Text) 正文結束
00000100 4 04 EOT (End Of Transmission) 傳輸結束
00000101 5 05 ENQ (Enquiry) 請求
00000110 6 06 ACK (Acknowledge) 回應/響應/收到通知
00000111 7 07 BEL (Bell) 響鈴
00001000 8 08 BS (Backspace) 退格
00001001 9 09 HT (Horizontal Tab) 水平制表符
00001010 10 0A LF/NL(Line Feed/New Line) 換行鍵
00001011 11 0B VT (Vertical Tab) 垂直制表符
00001100 12 0C FF/NP (Form Feed/New Page) 換頁鍵
00001101 13 0D CR (Carriage Return) 回車鍵
00001110 14 0E SO (Shift Out) 不用切換
00001111 15 0F SI (Shift In) 啟用切換
00010000 16 10 DLE (Data Link Escape) 數據鏈路轉義
00010001 17 11 DC1/XON (Device Control 1/Transmission On) 設備控制1/傳輸開始
00010010 18 12 DC2 (Device Control 2) 設備控制2
00010011 19 13 DC3/XOFF (Device Control 3/Transmission Off) 設備控制3/傳輸中斷
00010100 20 14 DC4 (Device Control 4) 設備控制4
00010101 21 15 NAK (Negative Acknowledge) 無響應/非正常響應/拒絕接收
00010110 22 16 SYN (Synchronous Idle) 同步空閑
00010111 23 17 ETB (End of Transmission Block) 傳輸塊結束/塊傳輸終止
00011000 24 18 CAN (Cancel) 取消
00011001 25 19 EM (End of Medium) 已到介質末端/介質存儲已滿/介質中斷
00011010 26 1A SUB (Substitute) 替補/替換
00011011 27 1B ESC (Escape) 逃離/取消
00011100 28 1C FS (File Separator) 文件分割符
00011101 29 1D GS (Group Separator) 組分隔符/分組符
00011110 30 1E RS (Record Separator) 記錄分離符
00011111 31 1F US (Unit Separator) 單元分隔符
00100000 32 20 (Space) 空格
00100001 33 21 !
00100010 34 22 "
00100011 35 23 #
00100100 36 24 $
00100101 37 25 %
00100110 38 26 &
00100111 39 27
00101000 40 28 (
00101001 41 29 )
00101010 42 2A *
00101011 43 2B +
00101100 44 2C ,
00101101 45 2D -
00101110 46 2E .
00101111 47 2F /
00110000 48 30 0
00110001 49 31 1
00110010 50 32 2
00110011 51 33 3
00110100 52 34 4
00110101 53 35 5
00110110 54 36 6
00110111 55 37 7
00111000 56 38 8
00111001 57 39 9
00111010 58 3A :
00111011 59 3B ;
00111100 60 3C <
00111101 61 3D =
00111110 62 3E >
00111111 63 3F ?
01000000 64 40 @
01000001 65 41 A
01000010 66 42 B
01000011 67 43 C
01000100 68 44 D
01000101 69 45 E
01000110 70 46 F
01000111 71 47 G
01001000 72 48 H
01001001 73 49 I
01001010 74 4A J
01001011 75 4B K
01001100 76 4C L
01001101 77 4D M
01001110 78 4E N
01001111 79 4F O
01010000 80 50 P
01010001 81 51 Q
01010010 82 52 R
01010011 83 53 S
01010100 84 54 T
01010101 85 55 U
01010110 86 56 V
01010111 87 57 W
01011000 88 58 X
01011001 89 59 Y
01011010 90 5A Z
01011011 91 5B [
01011100 92 5C \
01011101 93 5D ]
01011110 94 5E ^
01011111 95 5F _
01100000 96 60 `
01100001 97 61 a
01100010 98 62 b
01100011 99 63 c
01100100 100 64 d
01100101 101 65 e
01100110 102 66 f
01100111 103 67 g
01101000 104 68 h
01101001 105 69 i
01101010 106 6A j
01101011 107 6B k
01101100 108 6C l
01101101 109 6D m
01101110 110 6E n
01101111 111 6F o
01110000 112 70 p
01110001 113 71 q
01110010 114 72 r
01110011 115 73 s
01110100 116 74 t
01110101 117 75 u
01110110 118 76 v
01110111 119 77 w
01111000 120 78 x
01111001 121 79 y
01111010 122 7A z
01111011 123 7B {
01111100 124 7C |
01111101 125 7D }
01111110 126 7E ~
01111111 127 7F DEL (Delete) 刪除

對控制字符的解釋

ASCII 編碼中第 0~31 個字符(開頭的 32 個字符)以及第 127 個字符(最後一個字符)都是不可見的(無法顯示),但是它們都具有一些特殊功能,所以稱為控制字符( Control Character)或者功能碼(Function Code)。

這 33 個控制字符大都與通信、數據存儲以及老式設備有關,有些在現代電腦中的含義已經改變了。

有些控制符需要一定的計算機功底才能理解,初學者可以跳過,選擇容易的理解即可。

下面列出了部分控制字符的具體功能:

    • NUL (0)

      NULL,空字符。空字符起初本意可以看作為 NOP(中文意為空操作,就是啥都不做的意思),此位置可以忽略一個字符。

      之所以有這個空字符,主要是用於計算機早期的記錄信息的紙帶,此處留個 NUL 字符,意思是先占這個位置,以待後用,比如你哪天想起來了,在這個位置在放一個別的啥字符之類的。

      後來呢,NUL 被用於C語言中,表示字符串的結束,當一個字符串中間出現 NUL 時,就意味著這個是一個字符串的結尾了。這樣就方便按照自己需求去定義字符串,多長都行,當然只要你內存放得下,然後最後加一個\0,即空字符,意思是當前字符串到此結束。
    • SOH (1)

      Start Of Heading,標題開始。如果信息溝通交流主要以命令和消息的形式的話,SOH 就可以用於標記每個消息的開始。

      1963年,最開始 ASCII 標準中,把此字符定義為 Start of Message,後來又改為現在的 Start Of Heading。

      現在,這個 SOH 常見於主從(master-slave)模式的 RS232 的通信中,一個主設備,以 SOH 開頭,和從設備進行通信。這樣方便從設備在數據傳輸出現錯誤的時候,在下一次通信之前,去實現重新同步(resynchronize)。如果沒有一個清晰的類似於 SOH 這樣的標記,去標記每個命令的起始或開頭的話,那麽重新同步,就很難實現了。
    • STX (2) 和 ETX (3)

      STX 表示 Start Of Text,意思是“文本開始”;ETX 表示 End Of Text,意思是“文本結束”。

      通過某種通訊協議去傳輸的一個數據(包),稱為一幀的話,常會包含一個幀頭,包含了尋址信息,即你是要發給誰,要發送到目的地是哪裏,其後跟著真正要發送的數據內容。

      而 STX,就用於標記這個數據內容的開始。接下來是要傳輸的數據,最後是 ETX,表明數據的結束。

      而中間具體傳輸的數據內容,ASCII 並沒有去定義,它和你所用的傳輸協議有關。
      幀頭數據或文本內容
      SOH(表明幀頭開始) ......(幀頭信息,比如包含了目的地址,表明你發送給誰等等) STX(表明數據開始) ......(真正要傳輸的數據) ETX(表明數據結束
    • BEL (7)

      BELl,響鈴。在 ASCII 編碼中,BEL 是個比較有意思的東西。BEL 用一個可以聽得見的聲音來吸引人們的註意,既可以用於計算機,也可以用於周邊設備(比如打印機)。

      註意,BEL 不是聲卡或者喇叭發出的聲音,而是蜂鳴器發出的聲音,主要用於報警,比如硬件出現故障時就會聽到這個聲音,有的計算機操作系統正常啟動也會聽到這個聲音。蜂鳴器沒有直接安裝到主板上,而是需要連接到主板上的一種外設,現代很多計算機都不安裝蜂鳴器了,即使輸出 BEL 也聽不到聲音,這個時候 BEL 就沒有任何作用了。
    • BS (8)

      BackSpace,退格鍵。退格鍵的功能,隨著時間變化,意義也變得不同了。

      退格鍵起初的意思是,在打印機和電傳打字機上,往回移動一格光標,以起到強調該字符的作用。比如你想要打印一個 a,然後加上退格鍵後,就成了 aBS^。在機械類打字機上,此方法能夠起到實際的強調字符的作用,但是對於後來的 CTR 下時期來說,就無法起到對應效果了。

      而現代所用的退格鍵,不僅僅表示光標往回移動了一格,同時也刪除了移動後該位置的字符。
    • HT (9)

      Horizontal Tab,水平制表符,相當於 Table/Tab 鍵。

      水平制表符的作用是用於布局,它控制輸出設備前進到下一個表格去處理。而制表符 Table/Tab 的寬度也是靈活不固定的,只不過在多數設備上制表符 Tab 都預定義為 4 個空格的寬度。

      水平制表符 HT 不僅能減少數據輸入者的工作量,對於格式化好的文字來說,還能夠減少存儲空間,因為一個Tab鍵,就代替了 4 個空格。
    • LF (10)

      Line Feed,直譯為“給打印機等餵一行”,也就是“換行”的意思。LF 是 ASCII 編碼中常被誤用的字符之一。

      LF 的最原始的含義是,移動打印機的頭到下一行。而另外一個 ASCII 字符,CR(Carriage Return)才是將打印機的頭移到最左邊,即一行的開始(行首)。很多串口協議和 MS-DOS 及 Windows 操作系統,也都是這麽實現的。

      而C語言和 Unix 操作系統將 LF 的含義重新定義為“新行”,即 LF 和 CR 的組合效果,也就是回車且換行的意思。

      從程序的角度出發,C語言和 Unix 對 LF 的定義顯得更加自然,而 MS-DOS 的實現更接近於 LF 的本意。

      現在人們常將 LF 用做“新行(newline)”的功能,大多數文本編輯軟件也都可以處理單個 LF 或者 CR/LF 的組合了。
    • VT (11)

      Vertical Tab,垂直制表符。它類似於水平制表符 Tab,目的是為了減少布局中的工作,同時也減少了格式化字符時所需要存儲字符的空間。VT 控制符用於跳到下一個標記行。

      說實話,還真沒看到有些地方需要用 VT,因為一般在換行的時候都是用 LF 代替 VT 了。
    • FF (12)

      Form Feed,換頁。設計換頁鍵,是用來控制打印機行為的。當打印機收到此鍵碼的時候,打印機移動到下一頁。

      不同的設備的終端對此控制符所表現的行為各不同,有些會清除屏幕,有些只是顯示^L字符,有些只是新換一行而已。例如,Unix/Linux 下的 Bash Shell 和 Tcsh 就把 FF 看做是一個清空屏幕的命令。
    • CR (13)

      Carriage return,回車,表示機器的滑動部分(或者底座)返回。

      CR 回車的原意是讓打印頭回到左邊界,並沒有移動到下一行的意思。隨著時間的流逝,後來人們把 CR 的意思弄成了 Enter 鍵,用於示意輸入完畢。

      在數據以屏幕顯示的情況下,人們按下 Enter 的同時,也希望把光標移動到下一行,因此C語言和 Unix 重新定義了 CR 的含義,將其表示為移動到下一行。當輸入 CR 時,系統也常常隱式地將其轉換為LF。
    • SO (14) 和 SI (15)

      SO,Shift Out,不用切換;SI,Shift In,啟用切換。

      早在 1960s 年代,設計 ASCII 編碼的美國人就已經想到了,ASCII 編碼不僅僅能用於英文,也要能用於外文字符集,這很重要,定義 Shift In 和 Shift Out 正是考慮到了這點。

      最開始,其意為在西裏爾語和拉丁語之間切換。西裏爾語 ASCII(也即 KOI-7 編碼)將 Shift 作為一個普通字符,而拉丁語 ASCII(也就是我們通常所說的 ASCII)用 Shift 去改變打印機的字體,它們完全是兩種含義。

      在拉丁語 ASCII 中,SO 用於產生雙倍寬度的字符(類似於全角),而用 SI 打印壓縮的字體(類似於半角)。
    • DLE (16)

      Data Link Escape,數據鏈路轉義。

      有時候我們需要在通信過程中發送一些控制字符,但是總有一些情況下,這些控制字符被看成了普通的數據流,而沒有起到對應的控制效果,ASCII 編碼引入 DLE 來解決這類問題。

      如果數據流中檢測到了 DLE,數據接收端會對數據流中接下來的字符另作處理。但是具體如何處理,ASCII 規範中並沒有定義,只是弄了個 DLE 去打斷正常的數據流,告訴接下來的數據要特殊對待。
    • DC1 (17)

      Device Control 1,或者 XON – Transmission on。

      這個 ASCII 控制符盡管原先定義為 DC1, 但是現在常表示為 XON,用於串行通信中的軟件流控制。其主要作用為,在通信被控制符 XOFF 中斷之後,重新開始信息傳輸。

      用過串行終端的人應該還記得,當有時候數據出錯了,按 Ctrl+Q(等價於XON)有時候可以起到重新傳輸的效果。這是因為,此 Ctrl+Q 鍵盤序列實際上就是產生 XON 控制符,它可以將那些由於終端或者主機方面,由於偶爾出現的錯誤的 XOFF 控制符而中斷的通信解鎖,使其正常通信。
    • DC3 (19)

      Device Control 3,或者 XOFF(Transmission off,傳輸中斷)。

      EM (25)

      End of Medium,已到介質末端,介質存儲已滿。

      EM 用於,當數據存儲到達串行存儲介質末尾的時候,就像磁帶或磁頭滾動到介質末尾一樣。其用於表述數據的邏輯終點,即不必非要是物理上的達到數據載體的末尾。
    • FS(28)

      File Separator,文件分隔符。FS 是個很有意思的控制字符,它可以讓我們看到 1960s 年代的計算機是如何組織的。

      我們現在習慣於隨機訪問一些存儲介質,比如 RAM、磁盤等,但是在設計 ASCII 編碼的那個年代,大部分數據還是順序的、串行的,而不是隨機訪問的。此處所說的串行,不僅僅指的是串行通信,還指的是順序存儲介質,比如穿孔卡片、紙帶、磁帶等。

      在串行通信的時代,設計這麽一個用於表示文件分隔的控制字符,用於分割兩個單獨的文件,是一件很明智的事情。
    • GS(29)

      Group Separator,分組符。

      ASCII 定義控制字符的原因之一就是考慮到了數據存儲。

      大部分情況下,數據庫的建立都和表有關,表包含了多條記錄。同一個表中的所有記錄屬於同一類型,不同的表中的記錄屬於不同的類型。

      而分組符 GS 就是用來分隔串行數據存儲系統中的不同的組。值得註意的是,當時還沒有使用 Excel 表格,ASCII 時代的人把它叫做組。
    • RS(30)

      Record Separator,記錄分隔符,用於分隔一個組或表中的多條記錄。
    • US(31)

      Unit Separator,單元分隔符。

      在 ASCII 定義中,數據庫中所存儲的最小的數據項叫做單元(Unit)。而現在我們稱其字段(Field)。單元分隔符 US 用於分割串行數據存儲環境下的不同單元。

      現在的數據庫實現都要求大部分類型都擁有固定的長度,盡管有時候可能用不到,但是對於每一個字段,卻都要分配足夠大的空間,用於存放最大可能的數據。

      這種做法的弊端就是占用了大量的存儲空間,而 US 控制符允許字段具有可變的長度。在 1960s 年代,數據存儲空間很有限,用 US 將不同單元分隔開,能節省很多空間。
    • DEL (127)

      Delete,刪除。

      有人也許會問,為何 ASCII 編碼中其它控制字符的值都很小(即 0~31),而 DEL 的值卻很大呢(為 127)?

      這是由於這個特殊的字符是為紙帶而定義的。在那個年代,絕大多數的紙帶都是用7個孔洞去編碼數據的。而 127 這個值所對應的二進制值為111 1111(所有 7 個比特位都是1),將 DEL 用在現存的紙帶上時,所有的洞就都被穿孔了,就把已經存在的數據都擦除掉了,就起到了刪除的作用。

判斷題:

C語言使用的就是 ASCII 編碼,字符在存儲時會轉換成對應的 ASCII 碼值,在讀取時也是根據 ASCII 碼找到對應的字符。(X)

答:C語言有時候使用 ASCII 編碼,有時候卻不是,而是使用後面兩節中即將講到的 GBK 編碼和 Unicode 字符集。

ASCII碼專題