python全棧開發【第六篇】Python字符編碼
1.內存和硬盤都是用來存儲的。
CPU:速度快
硬盤:永久保存
2.文本編輯器存取文件的原理(nodepad++,pycharm,word)
打開編輯器就可以啟動一個進程,是在內存中的,所以在編輯器編寫的內容也都是存放在內存中的,斷電後數據就丟失了。因而需要保存在硬盤上,點擊保存按鈕或快捷鍵,就把內存中的數據保存到了硬盤上。在這一點上,我們編寫的py文件(沒有執行時),跟編寫的其他文件沒有什麽區別,都只是編寫一堆字符而已。
3.python解釋器執行py文件的原理,例如python test.py
第一階段:python解釋器啟動,此時就相當於啟動了一個文本編輯器
第二階段:python解釋器相當於文本編輯器,去打開test.py,從硬盤上將test.py的文件內容讀入到內存中
第三階段:python解釋器執行剛剛加載到內存中的test.py的代碼(在該階段,即執行時,才會識別python的語法,執行到字符串時,會開辟內存空間存放字符串)
總結:python解釋器與文本編輯器的異同
相同點:python解釋器是解釋執行文件內容的,因而python解釋器具備讀py文件的功能,這一點與文本編輯器一樣
不同點:文本編輯器將文件內容讀入內存後,是為了顯示/編輯,而python解釋器將文件內容讀入內存後,是為了執行(識別python的語法)
4.什麽是編碼?
計算機想要工作必須通電,高低電平(高電平即二進制數1,低電平即二進制數0),也就是說計算機只認識數字。那麽讓計算機如何讀懂人類的字符呢?
這就必須經過一個過程:
字符---------(翻譯過程)-------------數字
這個過程實際就是一個字符如何對應一個特定數字的標準,這個標準稱之為字符編碼。
5.以下兩個場景涉及到字符編碼的問題:
1.一個python文件中的內容是由一堆字符組成的(python文件未執行時)
2.python中的數據類型字符串是由一串字符組成的(python文件執行時)
6.字符編碼的發展史
階段一:現代計算機起源於美國,最早誕生也是基於英文考慮的ASCII
ASCII:一個Bytes代表一個字符(英文字符/鍵盤上的所有其他字符),1Bytes=8bit,8bit可以表示0-2**8-1種變化,即可以表示256個字符
ASCII最初只用了後七位,127個數字,已經完全能夠代表鍵盤上所有的字符了(英文字符/鍵盤的所有其他字符)
後來為了將拉丁文也編碼進了ASCII表,將最高位也占用了
階段二:為了滿足中文,中國人定制了GBK
GBK:2Bytes代表一個字符,為了滿足其他國家,各個國家紛紛定制了自己的編碼,日本把日文編到Shift_JIS
裏,韓國把韓文編到Euc-kr
裏
階段三:各國有各國的標準,就會不可避免地出現沖突,結果就是,在多語言混合的文本中,顯示出來會有亂碼。
於是產生了unicode, 統一用2Bytes代表一個字符, 2**16-1=65535,可代表6萬多個字符,因而兼容萬國語言
但對於通篇都是英文的文本來說,這種編碼方式無疑是多了一倍的存儲空間(二進制最終都是以電或者磁的方式存儲到存儲介質中的)
於是產生了UTF-8,對英文字符只用1Bytes表示,對中文字符用3Bytes
需要強調的是:
unicode:簡單粗暴,多有的字符都是2Bytes,優點是字符--數字的轉換速度快;缺點是占用空間大。
utf-8:精準,可變長,優點是節省空間;缺點是轉換速度慢,因為每次轉換都需要計算出需要多長Bytes才能夠準確表示。
1.內存中使用的編碼是unicode,用空間換時間(程序都需要加載到內存才能運行,因而內存應該是越快越好)
2.硬盤中或網絡傳輸用utf-8,保證數據傳輸的穩定性。
1 所有程序,最終都要加載到內存,程序保存到硬盤不同的國家用不同的編碼格式,但是到內存中我們為了兼容萬國(計算機可以運行任何國家的程序原因在於此),統一且固定使用unicode, 2 這就是為何內存固定用unicode的原因,你可能會說兼容萬國我可以用utf-8啊,可以,完全可以正常工作,之所以不用肯定是unicode比utf-8更高效啊(uicode固定用2個字節編碼 3 ,utf-8則需要計算),但是unicode更浪費空間,沒錯,這就是用空間換時間的一種做法,而存放到硬盤,或者網絡傳輸,都需要把unicode轉成utf-8, 4 因為數據的傳輸,追求的是穩定,高效,數據量越小數據傳輸就越靠譜,於是都轉成utf-8格式的,而不是unicode。
1 所有程序,最終都要加載到內存,程序保存到硬盤不同的國家用不同的編碼格式,但是到內存中我們為了兼容萬國(計算機可以運行任何國家的程序原因在於此),統一且固定使用unicode, 2 這就是為何內存固定用unicode的原因,你可能會說兼容萬國我可以用utf-8啊,可以,完全可以正常工作,之所以不用肯定是unicode比utf-8更高效啊(uicode固定用2個字節編碼 3 ,utf-8則需要計算),但是unicode更浪費空間,沒錯,這就是用空間換時間的一種做法,而存放到硬盤,或者網絡傳輸,都需要把unicode轉成utf-8, 4 因為數據的傳輸,追求的是穩定,高效,數據量越小數據傳輸就越靠譜,於是都轉成utf-8格式的,而不是unicode。
七、字符編碼轉換
unicode------>encode(編碼)-------->utf-8
utf-8---------->decode--------->unicode
文件從內存刷到硬盤的操作簡稱存文件
文件從硬盤讀到內存的操作簡稱讀文件
亂碼:存文件時就已經亂碼 或者 存文件時不亂碼而讀文件時亂碼
總結:
無論是何種編輯器,要防止文件出現亂碼(請一定註意,存放一段代碼的文件也僅僅只是一個普通文件而已,此處指的是文件沒有執行前,我們打開文件時出現的亂碼)
核心法則就是,文件以什麽編碼保存的,就以什麽編碼方式打開
八、 文本編輯器之python解釋器
文件test.py以gbk格式保存,內容為:
x=‘林‘
無論是
python2 test.py
還是
python3 test.py
都會報錯(因為python2默認ascii,python3默認utf-8)
除非在文件開頭指定#coding:gbk
九、程序的執行
python3 test.py 或 python2 test.py(執行test.py的第一步,一定是先將文件內容讀入到內存中)
階段一:啟動python解釋器
階段二:python解釋器此時就是一個文本編輯器,負責打開文件test.py,即從硬盤中讀取test.py的內容到內存中
此時,python解釋器會讀取test.py 的第一行內容,#coding :utf-8,來決定以什麽編碼格式來讀入內存,這一行就是來設定python解釋器這個軟件的編碼使用的編碼格式這個編碼,python2默認使用ASCII,python3中默認使用utf-8
階段三:讀取已經加載到內存的代碼(unicode編碼的二進制),然後執行,執行過程中可能會開辟新的內存空間,比如x="egon"
內存的編碼使用unicode,不代表內存中全都是unicode編碼的二進制,
在程序執行之前,內存中確實都是unicode編碼的二進制,比如從文件中讀取了一行x="egon",其中的x,等號,引號,地位都一樣,都是普通字符而已,都是以unicode編碼的二進制形式存放與內存中的
但是程序在執行過程中,會申請內存(與程序代碼所存在的內存是倆個空間),可以存放任意編碼格式的數據,比如x="egon",會被python解釋器識別為字符串,會申請內存空間來存放"hello",然後讓x指向該內存地址,此時新申請的該內存地址保存也是unicode編碼的egon,如果代碼換成x="egon".encode(‘utf-8‘),那麽新申請的內存空間裏存放的就是utf-8編碼的字符串egon了
十、python2與python3的區別
在python2中有兩種字符串類型str和unicode
在python2中,str就是編碼後的結果bytes,所以在Python2中,unicode字符編碼的結果就是str/bytes
#coding:utf-8
s=‘林‘ #在執行時,‘林‘會被以conding:utf-8的形式保存到新的內存空間中
print repr(s) #‘\xe6\x9e\x97‘ 三個Bytes,證明確實是utf-8
print type(s) #<type ‘str‘>
s.decode(‘utf-8‘)
# s.encode(‘utf-8‘) #報錯,s為編碼後的結果bytes,所以只能decode
1 #coding:utf-8 2 s=‘林‘ #在執行時,‘林‘會被以conding:utf-8的形式保存到新的內存空間中 3 4 print repr(s) #‘\xe6\x9e\x97‘ 三個Bytes,證明確實是utf-8 5 print type(s) #<type ‘str‘> 6 7 s.decode(‘utf-8‘) 8 # s.encode(‘utf-8‘) #報錯,s為編碼後的結果bytes,所以只能decode
當python解釋器執行到產生字符串的代碼時(例如s=u‘林‘),會申請新的內存地址,然後將‘林‘以unicode的格式存放到新的內存空間中,所以s只能encode,不能decode
s=u‘林‘
print repr(s) #u‘\u6797‘
print type(s) #<type ‘unicode‘>
# s.decode(‘utf-8‘) #報錯,s為unicode,所以只能encode
s.encode(‘utf-8‘)
1 s=u‘林‘ 2 print repr(s) #u‘\u6797‘ 3 print type(s) #<type ‘unicode‘> 4 5 6 # s.decode(‘utf-8‘) #報錯,s為unicode,所以只能encode 7 s.encode(‘utf-8‘)
對於unicode格式的數據來說,無論怎麽打印,都不會亂碼
python3中的字符串與python2中的u‘字符串‘,都是unicode,所以無論如何打印都不會亂碼
在python3中也有兩種字符串類型str和bytes\
str是unicode
#coding:utf-8
s=‘林‘ #當程序執行時,無需加u,‘林‘也會被以unicode形式保存新的內存空間中,
#s可以直接encode成任意編碼格式
s.encode(‘utf-8‘)
s.encode(‘gbk‘)
print(type(s)) #<class ‘str‘>
1 #coding:utf-8 2 s=‘林‘ #當程序執行時,無需加u,‘林‘也會被以unicode形式保存新的內存空間中, 3 4 #s可以直接encode成任意編碼格式 5 s.encode(‘utf-8‘) 6 s.encode(‘gbk‘) 7 8 print(type(s)) #<class ‘str‘>
python全棧開發【第六篇】Python字符編碼