Python 3中bytes/string的區別
原文: https://www.cnblogs.com/abclife/p/7445222.html
python 3中最重要的新特性可能就是將文本(text)和二進制數據做了更清晰的區分。文本總是用unicode進行編碼,以str類型表示;而二進制數據以bytes類型表示。
在python3中,不能以任何隱式方式將str和bytes類型二者混合使用。不可以將str和bytes類型進行拼接,不能在str中搜索bytes數據(反之亦然),也不能將str作為參數傳入需要bytes類型參數的函數(反之亦然)。
字符串和字節符之間劃分界線是必然的。下面這個圖解要牢記於心:
strings可以被編碼(encode)成字bytes,bytes也可以解碼(decode)成strings:
>>> ‘€20‘.encode(‘utf-8‘)
b‘\xe2\x82\xac20‘
>>> b‘\xe2\x82\xac20‘.decode(‘utf-8‘)
‘€20‘
可以這樣理解:
string是文本(text)的抽象表示。字符串(string)由字符組成,字符也是抽象的實體且與任何二進制表示無關。
當操縱字符串的時候,很多細節是不用了解的。我們可以分割、切片和拼接字符串,在字符串內部進行搜索。但並不在乎內部是如何表示的,也不用在意底層一個字符要花費多少byte。
只有在需要將string編碼(encode)成byte的時候,比如:通過網絡傳輸數據;或者需要將byte解碼(decode)成string的時候,我們才會關註string和byte的區別。
傳入encode和decode的參數是編碼方式。編碼是一種用二進制數據表示抽象字符的方式。目前有很多種編碼。上面給出的UTF-8是其中一種,下面是另一種:
>>> ‘€20‘.encode(‘iso-8859-15‘)
b‘\xa420‘
>>> b‘\xa420‘.decode(‘iso-8859-15‘)
‘€20‘
編碼是這個轉換過程中至關重要的一部分。若不編碼,bytes對象b‘\xa420‘只是一堆比特位而已。編碼賦予其含義。采用不同的編碼,這堆比特位的含義就會大不同:
>>> b‘\xa420‘.decode(‘windows-1255‘) ‘?20‘
Python 3中bytes/string的區別