ASCII碼專題

阿新 • • 發佈：2018-08-30

應該存儲建立格式行存儲換行工作量 rs232 tro

ASCII（American Standard Code for Information Interchange，美國信息互換標準代碼）是一套基於拉丁字母的字符編碼，共收錄了 128 個字符，用一個字節就可以存儲，它等同於國際標準 ISO/IEC 646。ASCII 規範於 1967 年第一次發布，最後一次更新是在 1986 年，它包含了 33 個控制字符（具有某些特殊功能但是無法顯示的字符）和 95 個可顯示字符。

ASCII碼表

二進制	十進制	十六進制	縮寫/字符	解釋
00000000	0	00	NUL (NULL)	空字符
00000001	1	01	SOH (Start Of Headling)	標題開始
00000010	2	02	STX (Start Of Text)	正文開始
00000011	3	03	ETX (End Of Text)	正文結束
00000100	4	04	EOT (End Of Transmission)	傳輸結束
00000101	5	05	ENQ (Enquiry)	請求
00000110	6	06	ACK (Acknowledge)	回應/響應/收到通知
00000111	7	07	BEL (Bell)	響鈴
00001000	8	08	BS (Backspace)	退格
00001001	9	09	HT (Horizontal Tab)	水平制表符
00001010	10	0A	LF/NL(Line Feed/New Line)	換行鍵
00001011	11	0B	VT (Vertical Tab)	垂直制表符
00001100	12	0C	FF/NP (Form Feed/New Page)	換頁鍵
00001101	13	0D	CR (Carriage Return)	回車鍵
00001110	14	0E	SO (Shift Out)	不用切換
00001111	15	0F	SI (Shift In)	啟用切換
00010000	16	10	DLE (Data Link Escape)	數據鏈路轉義
00010001	17	11	DC1/XON (Device Control 1/Transmission On)	設備控制1/傳輸開始
00010010	18	12	DC2 (Device Control 2)	設備控制2
00010011	19	13	DC3/XOFF (Device Control 3/Transmission Off)	設備控制3/傳輸中斷
00010100	20	14	DC4 (Device Control 4)	設備控制4
00010101	21	15	NAK (Negative Acknowledge)	無響應/非正常響應/拒絕接收
00010110	22	16	SYN (Synchronous Idle)	同步空閑
00010111	23	17	ETB (End of Transmission Block)	傳輸塊結束/塊傳輸終止
00011000	24	18	CAN (Cancel)	取消
00011001	25	19	EM (End of Medium)	已到介質末端/介質存儲已滿/介質中斷
00011010	26	1A	SUB (Substitute)	替補/替換
00011011	27	1B	ESC (Escape)	逃離/取消
00011100	28	1C	FS (File Separator)	文件分割符
00011101	29	1D	GS (Group Separator)	組分隔符/分組符
00011110	30	1E	RS (Record Separator)	記錄分離符
00011111	31	1F	US (Unit Separator)	單元分隔符
00100000	32	20	(Space)	空格
00100001	33	21	!
00100010	34	22	"
00100011	35	23	#
00100100	36	24	$
00100101	37	25	%
00100110	38	26	&
00100111	39	27	‘
00101000	40	28	(
00101001	41	29	)
00101010	42	2A	*
00101011	43	2B	+
00101100	44	2C	,
00101101	45	2D	-
00101110	46	2E	.
00101111	47	2F	/
00110000	48	30	0
00110001	49	31	1
00110010	50	32	2
00110011	51	33	3
00110100	52	34	4
00110101	53	35	5
00110110	54	36	6
00110111	55	37	7
00111000	56	38	8
00111001	57	39	9
00111010	58	3A	:
00111011	59	3B	;
00111100	60	3C	<
00111101	61	3D	=
00111110	62	3E	>
00111111	63	3F	?
01000000	64	40	@
01000001	65	41	A
01000010	66	42	B
01000011	67	43	C
01000100	68	44	D
01000101	69	45	E
01000110	70	46	F
01000111	71	47	G
01001000	72	48	H
01001001	73	49	I
01001010	74	4A	J
01001011	75	4B	K
01001100	76	4C	L
01001101	77	4D	M
01001110	78	4E	N
01001111	79	4F	O
01010000	80	50	P
01010001	81	51	Q
01010010	82	52	R
01010011	83	53	S
01010100	84	54	T
01010101	85	55	U
01010110	86	56	V
01010111	87	57	W
01011000	88	58	X
01011001	89	59	Y
01011010	90	5A	Z
01011011	91	5B	[
01011100	92	5C	\
01011101	93	5D	]
01011110	94	5E	^
01011111	95	5F	_
01100000	96	60	`
01100001	97	61	a
01100010	98	62	b
01100011	99	63	c
01100100	100	64	d
01100101	101	65	e
01100110	102	66	f
01100111	103	67	g
01101000	104	68	h
01101001	105	69	i
01101010	106	6A	j
01101011	107	6B	k
01101100	108	6C	l
01101101	109	6D	m
01101110	110	6E	n
01101111	111	6F	o
01110000	112	70	p
01110001	113	71	q
01110010	114	72	r
01110011	115	73	s
01110100	116	74	t
01110101	117	75	u
01110110	118	76	v
01110111	119	77	w
01111000	120	78	x
01111001	121	79	y
01111010	122	7A	z
01111011	123	7B	{
01111100	124	7C	\|
01111101	125	7D	}
01111110	126	7E	~
01111111	127	7F	DEL (Delete)	刪除

對控制字符的解釋

ASCII 編碼中第 0~31 個字符（開頭的 32 個字符）以及第 127 個字符（最後一個字符）都是不可見的（無法顯示），但是它們都具有一些特殊功能，所以稱為控制字符（ Control Character）或者功能碼（Function Code）。

這 33 個控制字符大都與通信、數據存儲以及老式設備有關，有些在現代電腦中的含義已經改變了。

有些控制符需要一定的計算機功底才能理解，初學者可以跳過，選擇容易的理解即可。

下面列出了部分控制字符的具體功能：

NUL (0)
NULL，空字符。空字符起初本意可以看作為 NOP（中文意為空操作，就是啥都不做的意思），此位置可以忽略一個字符。

之所以有這個空字符，主要是用於計算機早期的記錄信息的紙帶，此處留個 NUL 字符，意思是先占這個位置，以待後用，比如你哪天想起來了，在這個位置在放一個別的啥字符之類的。

後來呢，NUL 被用於C語言中，表示字符串的結束，當一個字符串中間出現 NUL 時，就意味著這個是一個字符串的結尾了。這樣就方便按照自己需求去定義字符串，多長都行，當然只要你內存放得下，然後最後加一個\0，即空字符，意思是當前字符串到此結束。
SOH (1)
Start Of Heading，標題開始。如果信息溝通交流主要以命令和消息的形式的話，SOH 就可以用於標記每個消息的開始。

1963年，最開始 ASCII 標準中，把此字符定義為 Start of Message，後來又改為現在的 Start Of Heading。

現在，這個 SOH 常見於主從（master-slave）模式的 RS232 的通信中，一個主設備，以 SOH 開頭，和從設備進行通信。這樣方便從設備在數據傳輸出現錯誤的時候，在下一次通信之前，去實現重新同步（resynchronize）。如果沒有一個清晰的類似於 SOH 這樣的標記，去標記每個命令的起始或開頭的話，那麽重新同步，就很難實現了。

STX (2) 和 ETX (3)

STX 表示 Start Of Text，意思是“文本開始”；ETX 表示 End Of Text，意思是“文本結束”。

通過某種通訊協議去傳輸的一個數據（包），稱為一幀的話，常會包含一個幀頭，包含了尋址信息，即你是要發給誰，要發送到目的地是哪裏，其後跟著真正要發送的數據內容。

而 STX，就用於標記這個數據內容的開始。接下來是要傳輸的數據，最後是 ETX，表明數據的結束。

而中間具體傳輸的數據內容，ASCII 並沒有去定義，它和你所用的傳輸協議有關。

幀頭		數據或文本內容
SOH（表明幀頭開始）	......（幀頭信息，比如包含了目的地址，表明你發送給誰等等）	STX（表明數據開始）	......（真正要傳輸的數據）	ETX（表明數據結束

BEL (7)
BELl，響鈴。在 ASCII 編碼中，BEL 是個比較有意思的東西。BEL 用一個可以聽得見的聲音來吸引人們的註意，既可以用於計算機，也可以用於周邊設備（比如打印機）。

註意，BEL 不是聲卡或者喇叭發出的聲音，而是蜂鳴器發出的聲音，主要用於報警，比如硬件出現故障時就會聽到這個聲音，有的計算機操作系統正常啟動也會聽到這個聲音。蜂鳴器沒有直接安裝到主板上，而是需要連接到主板上的一種外設，現代很多計算機都不安裝蜂鳴器了，即使輸出 BEL 也聽不到聲音，這個時候 BEL 就沒有任何作用了。
BS (8)
BackSpace，退格鍵。退格鍵的功能，隨著時間變化，意義也變得不同了。

退格鍵起初的意思是，在打印機和電傳打字機上，往回移動一格光標，以起到強調該字符的作用。比如你想要打印一個 a，然後加上退格鍵後，就成了 aBS^。在機械類打字機上，此方法能夠起到實際的強調字符的作用，但是對於後來的 CTR 下時期來說，就無法起到對應效果了。

而現代所用的退格鍵，不僅僅表示光標往回移動了一格，同時也刪除了移動後該位置的字符。
HT (9)
Horizontal Tab，水平制表符，相當於 Table/Tab 鍵。

水平制表符的作用是用於布局，它控制輸出設備前進到下一個表格去處理。而制表符 Table/Tab 的寬度也是靈活不固定的，只不過在多數設備上制表符 Tab 都預定義為 4 個空格的寬度。

水平制表符 HT 不僅能減少數據輸入者的工作量，對於格式化好的文字來說，還能夠減少存儲空間，因為一個Tab鍵，就代替了 4 個空格。
LF (10)
Line Feed，直譯為“給打印機等餵一行”，也就是“換行”的意思。LF 是 ASCII 編碼中常被誤用的字符之一。

LF 的最原始的含義是，移動打印機的頭到下一行。而另外一個 ASCII 字符，CR（Carriage Return）才是將打印機的頭移到最左邊，即一行的開始（行首）。很多串口協議和 MS-DOS 及 Windows 操作系統，也都是這麽實現的。

而C語言和 Unix 操作系統將 LF 的含義重新定義為“新行”，即 LF 和 CR 的組合效果，也就是回車且換行的意思。

從程序的角度出發，C語言和 Unix 對 LF 的定義顯得更加自然，而 MS-DOS 的實現更接近於 LF 的本意。

現在人們常將 LF 用做“新行（newline）”的功能，大多數文本編輯軟件也都可以處理單個 LF 或者 CR/LF 的組合了。
VT (11)
Vertical Tab，垂直制表符。它類似於水平制表符 Tab，目的是為了減少布局中的工作，同時也減少了格式化字符時所需要存儲字符的空間。VT 控制符用於跳到下一個標記行。

說實話，還真沒看到有些地方需要用 VT，因為一般在換行的時候都是用 LF 代替 VT 了。
FF (12)
Form Feed，換頁。設計換頁鍵，是用來控制打印機行為的。當打印機收到此鍵碼的時候，打印機移動到下一頁。

不同的設備的終端對此控制符所表現的行為各不同，有些會清除屏幕，有些只是顯示^L字符，有些只是新換一行而已。例如，Unix/Linux 下的 Bash Shell 和 Tcsh 就把 FF 看做是一個清空屏幕的命令。
CR (13)
Carriage return，回車，表示機器的滑動部分（或者底座）返回。

CR 回車的原意是讓打印頭回到左邊界，並沒有移動到下一行的意思。隨著時間的流逝，後來人們把 CR 的意思弄成了 Enter 鍵，用於示意輸入完畢。

在數據以屏幕顯示的情況下，人們按下 Enter 的同時，也希望把光標移動到下一行，因此C語言和 Unix 重新定義了 CR 的含義，將其表示為移動到下一行。當輸入 CR 時，系統也常常隱式地將其轉換為LF。
SO (14) 和 SI (15)
SO，Shift Out，不用切換；SI，Shift In，啟用切換。

早在 1960s 年代，設計 ASCII 編碼的美國人就已經想到了，ASCII 編碼不僅僅能用於英文，也要能用於外文字符集，這很重要，定義 Shift In 和 Shift Out 正是考慮到了這點。

最開始，其意為在西裏爾語和拉丁語之間切換。西裏爾語 ASCII（也即 KOI-7 編碼）將 Shift 作為一個普通字符，而拉丁語 ASCII（也就是我們通常所說的 ASCII）用 Shift 去改變打印機的字體，它們完全是兩種含義。

在拉丁語 ASCII 中，SO 用於產生雙倍寬度的字符（類似於全角），而用 SI 打印壓縮的字體（類似於半角）。
DLE (16)
Data Link Escape，數據鏈路轉義。

有時候我們需要在通信過程中發送一些控制字符，但是總有一些情況下，這些控制字符被看成了普通的數據流，而沒有起到對應的控制效果，ASCII 編碼引入 DLE 來解決這類問題。

如果數據流中檢測到了 DLE，數據接收端會對數據流中接下來的字符另作處理。但是具體如何處理，ASCII 規範中並沒有定義，只是弄了個 DLE 去打斷正常的數據流，告訴接下來的數據要特殊對待。
DC1 (17)
Device Control 1，或者 XON – Transmission on。

這個 ASCII 控制符盡管原先定義為 DC1，但是現在常表示為 XON，用於串行通信中的軟件流控制。其主要作用為，在通信被控制符 XOFF 中斷之後，重新開始信息傳輸。

用過串行終端的人應該還記得，當有時候數據出錯了，按 Ctrl+Q（等價於XON）有時候可以起到重新傳輸的效果。這是因為，此 Ctrl+Q 鍵盤序列實際上就是產生 XON 控制符，它可以將那些由於終端或者主機方面，由於偶爾出現的錯誤的 XOFF 控制符而中斷的通信解鎖，使其正常通信。
DC3 (19)
Device Control 3，或者 XOFF（Transmission off，傳輸中斷）。
EM (25)
End of Medium，已到介質末端，介質存儲已滿。

EM 用於，當數據存儲到達串行存儲介質末尾的時候，就像磁帶或磁頭滾動到介質末尾一樣。其用於表述數據的邏輯終點，即不必非要是物理上的達到數據載體的末尾。
FS(28)
File Separator，文件分隔符。FS 是個很有意思的控制字符，它可以讓我們看到 1960s 年代的計算機是如何組織的。

我們現在習慣於隨機訪問一些存儲介質，比如 RAM、磁盤等，但是在設計 ASCII 編碼的那個年代，大部分數據還是順序的、串行的，而不是隨機訪問的。此處所說的串行，不僅僅指的是串行通信，還指的是順序存儲介質，比如穿孔卡片、紙帶、磁帶等。

在串行通信的時代，設計這麽一個用於表示文件分隔的控制字符，用於分割兩個單獨的文件，是一件很明智的事情。
GS(29)
Group Separator，分組符。

ASCII 定義控制字符的原因之一就是考慮到了數據存儲。

大部分情況下，數據庫的建立都和表有關，表包含了多條記錄。同一個表中的所有記錄屬於同一類型，不同的表中的記錄屬於不同的類型。

而分組符 GS 就是用來分隔串行數據存儲系統中的不同的組。值得註意的是，當時還沒有使用 Excel 表格，ASCII 時代的人把它叫做組。
RS(30)
Record Separator，記錄分隔符，用於分隔一個組或表中的多條記錄。
US(31)
Unit Separator，單元分隔符。

在 ASCII 定義中，數據庫中所存儲的最小的數據項叫做單元（Unit）。而現在我們稱其字段（Field）。單元分隔符 US 用於分割串行數據存儲環境下的不同單元。

現在的數據庫實現都要求大部分類型都擁有固定的長度，盡管有時候可能用不到，但是對於每一個字段，卻都要分配足夠大的空間，用於存放最大可能的數據。

這種做法的弊端就是占用了大量的存儲空間，而 US 控制符允許字段具有可變的長度。在 1960s 年代，數據存儲空間很有限，用 US 將不同單元分隔開，能節省很多空間。
DEL (127)
Delete，刪除。

有人也許會問，為何 ASCII 編碼中其它控制字符的值都很小（即 0~31），而 DEL 的值卻很大呢（為 127）？

這是由於這個特殊的字符是為紙帶而定義的。在那個年代，絕大多數的紙帶都是用7個孔洞去編碼數據的。而 127 這個值所對應的二進制值為111 1111（所有 7 個比特位都是1），將 DEL 用在現存的紙帶上時，所有的洞就都被穿孔了，就把已經存在的數據都擦除掉了，就起到了刪除的作用。

判斷題：

C語言使用的就是 ASCII 編碼，字符在存儲時會轉換成對應的 ASCII 碼值，在讀取時也是根據 ASCII 碼找到對應的字符。（X）

答：C語言有時候使用 ASCII 編碼，有時候卻不是，而是使用後面兩節中即將講到的 GBK 編碼和 Unicode 字符集。

ASCII碼專題

應該存儲建立格式行存儲換行工作量 rs232 tro ASCII（American Standard Code for Information Interchange，美國信息互換標準代碼）是一套基於拉丁字母的字符編碼，共收錄了 128 個字符，用一個字節就可以

ASCII碼專題

對控制字符的解釋

NUL (0)

SOH (1)

STX (2) 和 ETX (3)

BEL (7)

BS (8)

HT (9)

LF (10)

VT (11)

FF (12)

CR (13)

SO (14) 和 SI (15)

DLE (16)

DC1 (17)

DC3 (19)

EM (25)

FS(28)

GS(29)

RS(30)

US(31)

DEL (127)

相關推薦