Python學習筆記(二)字元編碼轉化
在上一篇我們提起倒編碼,那麼如何用Python進行字元轉化了?
首先有兩個函式:“ord( ) , chr( )”,其中ord( )是獲取引數——字元整數表示(十進位制),而chr( )與其相反,是將整數表達形式轉換為字元。如果你有閒心的話,你還可以在字串直接用數字表示中文(十六進位制),例如:"\u4eba"就表示"人"。
Python剛開始出來時只支援ASCII,到後來逐漸支援Unicode和UTF-8。如何將Unicode和UTF-8轉化了?就要用到“encode( )和decode( )‘’。將Unicode轉化為UTF-8,例如:
‘’'中文'.encode('utf-8') ‘’-> ‘’b'\xe4 \xb8 \xad \xe6 \x96 \x87'‘’
是將這個字元用UTF-8的規則編碼為位元組。而變回來則是:
“ b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')”->" '中文' "。
將這些位元組用UTF-8的規則解碼回去。如果有一部分有誤的話,我們可以在decode( )這個函式中加一個引數,將錯誤的位元組傳入'ignore'中。
“ b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') ”->“ '中' ”。