python2.x編碼問題實例
阿新 • • 發佈:2018-01-26
轉換成 code unicode ima clas width odin encoding detect
結合type(s),和chardet.detect(s),實驗str字符串結果如下:
#coding:utf-8
1)s1 = ‘人生‘ # s1是str,類型是utf-8
2)s1 = ‘人生‘.encode(‘gbk‘) # 報錯,原因是python實際執行了s = ‘中文‘.decode(‘asc-ii‘).encode(‘gbk‘),而ascii不支持中文
3)s1 = ‘人生‘.decode(‘utf-8‘).encode(‘utf-8‘) # s1是str,類型是utf-8,轉換過程是utf-8、unicode、utf-8
4)s1 = ‘人生‘.decode(‘utf-8‘).encode(‘gbk‘) # s1是str,類型是gbk,轉換過程是 utf-8、unicode、gbk
5)s1 = u‘人生‘ # s1是unicode
6)s1 = ‘人生‘.decode(‘utf-8‘) # s1是unicode
7)s1 = unicode(‘人生‘ , ‘utf-8‘) # s1是unicode,內部先轉成str(‘utf-8‘),再轉成unicode,後面的‘utf-8‘改成‘gbk‘也行,如果不寫則是通過defaultencoding轉換 另外,1和3在pycharm正常打印中文,但是在windows環境下亂碼,原因是windows是gbk編碼,同理4正好相反,pycharm亂碼但是windows正常。5、6、7在兩個環境下都能正常打印中文,原因是python unicode會自動轉換成環境的編碼
python字符串包括str 和 unicode,可以通過type(s)確定是str還是unicode
str可以繼續細分為各種編碼例如utf-8/GBK等
python內部則都通過unicode處理,如下圖:
結合type(s),和chardet.detect(s),實驗str字符串結果如下:
#coding:utf-8
1)s1 = ‘人生‘ # s1是str,類型是utf-8
2)s1 = ‘人生‘.encode(‘gbk‘) # 報錯,原因是python實際執行了s = ‘中文‘.decode(‘asc-ii‘).encode(‘gbk‘),而ascii不支持中文
3)s1 = ‘人生‘.decode(‘utf-8‘).encode(‘utf-8‘) # s1是str,類型是utf-8,轉換過程是utf-8、unicode、utf-8
4)s1 = ‘人生‘.decode(‘utf-8‘).encode(‘gbk‘) # s1是str,類型是gbk,轉換過程是
5)s1 = u‘人生‘ # s1是unicode
6)s1 = ‘人生‘.decode(‘utf-8‘) # s1是unicode
7)s1 = unicode(‘人生‘ , ‘utf-8‘) # s1是unicode,內部先轉成str(‘utf-8‘),再轉成unicode,後面的‘utf-8‘改成‘gbk‘也行,如果不寫則是通過defaultencoding轉換 另外,1和3在pycharm正常打印中文,但是在windows環境下亂碼,原因是windows是gbk編碼,同理4正好相反,pycharm亂碼但是windows正常。5、6、7在兩個環境下都能正常打印中文,原因是python unicode會自動轉換成環境的編碼
python2.x編碼問題實例