python3中編碼與解碼之Unicode與bytes
今天玩Python爬蟲,下載一個網頁,然後把所有內容寫入一個txt檔案中,出現錯誤;
TypeError: write() argument must be str, not bytes
AttributeError: 'URLError' object has no attribute 'code'
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte sequence
一看就是編碼問題,不懂,度娘上面這方面講得不多,感覺沒說清楚,自己研究了一晚上,摸出了一點門道。
從頭說起,由於各國語言文字不同,起初要在計算機中表示,就有了各種各樣的編碼(例如中文的gb2312)。但是這樣就出現了相容性的問題,所以就有了Unicode,也就是所謂的萬國碼,python3中字串型別str就是以Unicode編碼格式編碼,所以我們在Python3 中看到多種語言文字的字串而不會出現亂碼。
編碼是一種用一種特定的方式對抽象字元(Unicode)轉換為二進位制形式(bytes)進行表示,也就是python3中的encode。解碼就是對用特定方式表示的二進位制資料用特定的方式轉化為Unicode,也就是decode。
下圖就是編碼的核心:
一、字元的編碼:
Python對於bites型別的資料用帶‘b‘字首的單引號活雙引號表示。
下面關於字元編碼解碼的程式碼很好的解釋了上面的流程圖:
s='你好'
print(s)#輸出結果:你好
print(type(s))#輸出結果:<class 'str'>
s=s.encode('UTF-8')
print(s)#輸出結果:b'\xe4\xbd\xa0\xe5\xa5\xbd'
print(type(s))#輸出結果:<class 'bytes'>
s=s.decode('UTF-8')
print(s)#輸出結果:你好
print(type(s))#輸出結果:<class 'str'>
多說一句,如果你對str型別字元進行decode會報錯,同理,對bytes型別進行encode也會報錯。
二、檔案編碼
在python 3 中字元是以Unicode的形式儲存的,當然這裡所說的儲存是指儲存在計算機記憶體當中,如果是儲存在硬盤裡,Python 3的字元是以bytes形式儲存,也就是說如果要將字元寫入硬碟,就必須對字元進行encode。對上面這段話再解釋一下,如果要將str寫入檔案,如果以‘w’模式寫入,則要求寫入的內容必須是str型別;如果以‘wb’形式寫入,則要求寫入的內容必須是bytes型別。文章開頭出現的集中錯誤,就是因為寫入模式與寫入內容的資料型別不匹配造成的。
s1 = '你好' #如果是以‘w’的方式寫入,寫入前一定要進行encoding,否則會報錯 with open('F:\\1.txt','w',encoding='utf-8') as f1: f1.write(s1) s2 = s1.encode("utf-8")#轉換為bytes的形式 #這時候寫入方式一定要是‘wb’,且一定不能加encoding引數 with open('F:\\2.txt','wb') as f2: f2.write(s2)
有的人會問,我在系統裡面用文字編輯器開啟以bytes形式寫入的2.txt檔案,發現裡面顯示的是‘你好’,而不是‘b'\xe4\xbd\xa0\xe5\xa5\xbd'’,因為文字文件開啟2.txt時,又會對它進行decode,然後才給你看到。
三、網頁的編碼
網頁編碼和檔案編碼方法差不多,如下urlopen下載下來的網頁read()且用decoding(‘utf-8’)解碼,那就必須以‘w’的方式寫入檔案。如果只是read()而不用encoding(‘utf-8’)進行編碼,一定要以‘wb’方式寫入:
以‘w’方式寫入時:
response= url_open('http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ' ,timeout=5 ) #此處以UTF-8方式進行解碼,解碼後的資料以unicode的方式儲存在html中 html = response.read().decode('UTF-8') print(type(html))#輸出結果:<class 'str'> #這時寫入方式一定要加encoding,以encoding # 即UTF-8的方式對二進位制資料進行編碼才能寫入 with open('F:\DownloadAppData\html.txt',"w" , encoding='UTF-8') as f: f.write(html)
以‘wb’方式寫入:
response= url_open('http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ' ,timeout=5 ) html = response.read()#此處不需要進行解碼,下載下來 print(type(html))#輸出結果:<class 'bytes'> with open('F:\DownloadAppData\html.txt',"wb" ) as f: f.write(html)
如果要在Python3中,對urlopen下來的網頁進行字元搜尋,肯定也要進行decode,例如使用lxml.etree就必須進行decode。