Bytes 與 String 的區別
python3中最重要的新特性可能就是將文字(text)和二進位制資料做了更清晰的區分。文字總是用unicode進行編碼,以str型別表示;而二進位制資料以bytes型別表示。
在python3中,不能以任何隱式方式將str和bytes型別二者混合使用。不可以將str和bytes型別進行拼接,不能在str中搜索bytes資料(反之亦然),也不能將str作為引數傳入需要bytes型別引數的函式(反之亦然)。
字串和位元組符之間劃分界線是必然的。下面這個圖解要牢記於心:
strings可以被編碼(encode)成字bytes,bytes也可以解碼(decode)成strings:
1 2 3 4 |
|
可以這樣理解:
string是文字(text)的抽象表示。字串(string)由字元組成,字元也是抽象的實體且與任何二進位制表示無關。
當操縱字串的時候,很多細節是不用瞭解的。我們可以分割、切片和拼接字串,在字串內部進行搜尋。但並不在乎內部是如何表示的,也不用在意底層一個字元要花費多少byte。
只有在需要將string編碼(encode)成byte的時候,比如:通過網路傳輸資料;或者需要將byte解碼(decode)成string的時候,我們才會關注string和byte的區別。
傳入encode和decode的引數是編碼方式。編碼是一種用二進位制資料表示抽象字元的方式。目前有很多種編碼。上面給出的UTF-8是其中一種,下面是另一種:
1 2 3 4 |
|
編碼是這個轉換過程中至關重要的一部分。若不編碼,bytes物件b'\xa420'只是一堆位元位而已。編碼賦予其含義。採用不同的編碼,這堆位元位的含義就會大不同:
1 2 |
|