python語法_字符編碼
阿新 • • 發佈:2018-11-27
數據 多個 語法 odi 進制 font nic 直接 gb2
二進制:
ascll:只能存英文和拉聽字符,一個字符占一個字節,8位
gb2312:只能存6700多個中文,1980年
gbk1.0:能存2萬多字符,1995年
gbk18030:2000 27000萬字符
unicode:統一各個國家的編碼,萬國碼。每個字節占四個字節,
最初表現形式utf-32,一個字符占4個字節,後面出現了utf-16,一個字符占2個字節或者2個以上(65535個字符),
最後出現utf-8:英文用ascll來存,一個中文占三個字節,其他文字有占2個字節的。
所有的在中國發行的軟件都必須支持gb18030字符編碼。
計算機裏,unicode 稱呼為萬國碼,可以作為中間語言用於不同編碼的軟件進行交互。
把gpk 轉成unicode,為編碼encode,
gbk將unicode編碼的代碼轉換成gbk能理解的,為解碼decode
in python2
默認編碼為ASCII編碼,寫中文的時候,必須先聲明 -*-coding:utf8-*-
GBK 轉換成UTF-8流程:
1 gbk 通過decode 成unicode編碼.
2 unicoe 通過encode 成utf-8編碼
in python3
所有文件的默認字符編碼為unicode,所以在編碼時可以直接編碼成所需的編碼類型,不需要先decode了
但是如果unicode 去轉換成gbk,顯示的就是bytes了,其實unicode默認就支持中文的,沒什麽非常的必要,不需轉成gbk
encode 在編碼的同時,會把數據轉換成bytes類型
decode 在解碼的同時,會把bytes轉換成字符串類型
b =bytes 字節類型 一種數據類型,不同
python語法_字符編碼