1. 程式人生 > >編碼的種類與發展史及其表現形式

編碼的種類與發展史及其表現形式

中文 gb2312 byte 浪費 asc python 包含 存儲 代碼

編碼二
ascii: 字母,數字,特殊字符。
A: 0000 0010
B: 0000 0010
unicode: 萬國碼,包含世界上所有的文字。
創建之初:
A :0000 0010 0000 0010
中:0001 0010 0000 0010
升級:
A :0000 0010 0000 0010 0000 0010 0000 0010 32 位
中:0001 0010 0000 0010 0000 0010 0000 0010
浪費資源。
對unicode 升級:utf-8
A :0000 0010 8位
歐:0000 0010 0000 0010 16位
中:0000 0010 0000 0010 0000 0010 24位

gb2312: 國標:字母,數字,特殊字符,中文。
A :0000 0010 8位
中:0000 0010 0000 0010 16位

1, 編碼之間能不能互相識別。 不能互相識別。
2, 網絡傳輸,或者硬盤存儲的010101,必須是以非uniocde編碼方式的01010101.

大環境python3x:
str:內存(內部)編碼方式為Unicode。
bytes:python的基礎數據類型之一,他和str相當於雙胞胎,str擁有的所有方法,bytes類型都適用。

int
tuple
list
dict
set
區別:
英文字母:
str:
表現形式:s1 = ‘alex‘
內部編碼方式:unicode


bytes:
表現形式:b1 = b‘alex‘
內部編碼方式:非unicode

中文:
str:
表現形式:s1 = ‘太白‘
內部編碼方式:unicode


bytes:
表現形式:b1 = b‘\xe5\xa4\xaa\xe7\x99\xbd‘
內部編碼方式:非unicode

如何使用:
你想將一部分內容(字符串)寫入文件,或者通過網絡socket傳輸,這樣這部分內容(字符串)必須轉化成bytes才可以進行。
平時你代碼中,使用字符串。

編碼的種類與發展史及其表現形式