1. 程式人生 > >Python 3中bytes/string的區別

Python 3中bytes/string的區別

如何 strings 插入圖片 enc 混合 技術分享 cnblogs 劃分 比特

原文: https://www.cnblogs.com/abclife/p/7445222.html

python 3中最重要的新特性可能就是將文本(text)和二進制數據做了更清晰的區分。文本總是用unicode進行編碼,以str類型表示;而二進制數據以bytes類型表示。

在python3中,不能以任何隱式方式將str和bytes類型二者混合使用。不可以將str和bytes類型進行拼接,不能在str中搜索bytes數據(反之亦然),也不能將str作為參數傳入需要bytes類型參數的函數(反之亦然)。

字符串和字節符之間劃分界線是必然的。下面這個圖解要牢記於心:
技術分享圖片

strings可以被編碼(encode)成字bytes,bytes也可以解碼(decode)成strings:

>>> ‘€20‘.encode(‘utf-8‘)
b‘\xe2\x82\xac20‘
>>> b‘\xe2\x82\xac20‘.decode(‘utf-8‘)
‘€20‘

可以這樣理解:

string是文本(text)的抽象表示。字符串(string)由字符組成,字符也是抽象的實體且與任何二進制表示無關。
當操縱字符串的時候,很多細節是不用了解的。我們可以分割、切片和拼接字符串,在字符串內部進行搜索。但並不在乎內部是如何表示的,也不用在意底層一個字符要花費多少byte。
只有在需要將string編碼(encode)成byte的時候,比如:通過網絡傳輸數據;或者需要將byte解碼(decode)成string的時候,我們才會關註string和byte的區別。

傳入encode和decode的參數是編碼方式。編碼是一種用二進制數據表示抽象字符的方式。目前有很多種編碼。上面給出的UTF-8是其中一種,下面是另一種:

>>> ‘€20‘.encode(‘iso-8859-15‘)
b‘\xa420‘
>>> b‘\xa420‘.decode(‘iso-8859-15‘)
‘€20‘

編碼是這個轉換過程中至關重要的一部分。若不編碼,bytes對象b‘\xa420‘只是一堆比特位而已。編碼賦予其含義。采用不同的編碼,這堆比特位的含義就會大不同:

>>> b‘\xa420‘.decode(‘windows-1255‘)
‘?20‘

Python 3中bytes/string的區別