1. 程式人生 > >python語法_字符編碼

python語法_字符編碼

數據 多個 語法 odi 進制 font nic 直接 gb2

二進制:

ascll:只能存英文和拉聽字符,一個字符占一個字節,8位

gb2312:只能存6700多個中文,1980年

gbk1.0:能存2萬多字符,1995年

gbk18030:2000 27000萬字符

unicode:統一各個國家的編碼,萬國碼。每個字節占四個字節,

最初表現形式utf-32,一個字符占4個字節,後面出現了utf-16,一個字符占2個字節或者2個以上(65535個字符),

最後出現utf-8:英文用ascll來存,一個中文占三個字節,其他文字有占2個字節的。

所有的在中國發行的軟件都必須支持gb18030字符編碼。

計算機裏,unicode 稱呼為萬國碼,可以作為中間語言用於不同編碼的軟件進行交互。

把gpk 轉成unicode,為編碼encode,

gbk將unicode編碼的代碼轉換成gbk能理解的,為解碼decode

in python2

默認編碼為ASCII編碼,寫中文的時候,必須先聲明 -*-coding:utf8-*-

GBK 轉換成UTF-8流程:

1 gbk 通過decode 成unicode編碼.

2 unicoe 通過encode 成utf-8編碼

in python3

所有文件的默認字符編碼為unicode,所以在編碼時可以直接編碼成所需的編碼類型,不需要先decode了

但是如果unicode 去轉換成gbk,顯示的就是bytes了,其實unicode默認就支持中文的,沒什麽非常的必要,不需轉成gbk  

encode 在編碼的同時,會把數據轉換成bytes類型

decode 在解碼的同時,會把bytes轉換成字符串類型

b =bytes 字節類型 一種數據類型,不同

python語法_字符編碼