python unicode 及解碼編碼方式簡介

阿新 • • 發佈：2018-12-31

python及編碼原理測試

基於utf—8環境。

#coding:utf-8
unicode為通用編碼。

coding:utf-8的作用是宣告python直譯器及str的編碼方式，並不改變其他sys.getdefaultencoding()的預設編碼方式。

unicode 經過encode變為 str

str 經過decode變為 unicode

u’你好’ 代表 unicode 形式的你好
utf-8 以及 gbk 等都是編碼方式：
以utf-8為例：

unicode 經過 utf-8 編碼，u’我’.encode(‘utf-8’)，得到 utf-8 的str

coding:gbk指定了編碼方式,即該字串為utf-8編碼方式，如果需要解碼到unicode，需要decode(‘utf-8’)
sys.setdefaultencoding(‘gbk’)代表預設解碼方式為decode(‘gbk’)，即在使用’我我我’.encode(‘utf-8’)時，預設省略的解碼方式為decode(‘gbk’)。
locale.getdefaultlocale()可以檢視當前系統的環境語言及編碼方式，在print輸出時，根據編碼方式輸出。在mac中是‘utf-8’，所以在encode(‘utf-8’)之後可以print完好輸出，而在windows中，(我的暗影精靈是’cp936’，所以輸出亂碼)，在mac中如果encode(‘gbk’)則輸出也為亂碼。

而u’我我我’根據編輯器的#coding:種類進行unicode解碼，所以#coding:的類別並不重要，最後都可以正確存為unicdoe方式。

各個編輯器預設方式：

pycharm編輯器各環境及編碼方式為正常方式。
jupyter notebook 預設環境#coding:utf-8，修改成#coding:gbk似乎無效
sublimetxt3 需要設定預設編碼方式，初期實驗因為沒有設定sublime的預設編碼方式導致一直錯誤，設定為utf-8後，與pycharm相同。符合此條件。但是locale.getdefaultlocale()為(None,None)，與其他不同，前兩個都是(‘zh-cn’,’utf-8’)

terminal終端命令列符合此條件，完全符合。

代表性：

# coding:gbk
import sys
print sys.getdefaultencoding()
reload(sys)
sys.setdefaultencoding('utf-8')
#此處utf-8的作用是預設decode為(utf-8)
print sys.getdefaultencoding()
import locale
print locale.getdefaultlocale()
import chardet
print sys.getdefaultencoding()
b = '我我我我我我我無無'.decode('gbk').encode('gbk')
#此處意義在於：‘我’字串為gbk編碼，可以利用gbk解碼為unicode，而如果 ‘我’.encode('gbk')則預設採用sys.getdefaultencoding()，utf-8解碼，則會出現錯誤。
c = '我我我我'.encode('gbk')
#會出現錯誤，因為c為gbk編碼方式，而預設decode為('utf-8')，所以需要將sys.setdefaultencoding('gbk')即可。
print b
print chardet.detect(b)

ascii
utf-8
('zh_CN', 'UTF-8')
utf-8
������������������
{'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'}

#coding:utf-8
# in Ubuntu16.04 locale('en-US','UTF-8')
#　終端執行此指令碼
import os
wo = '\xe6\x88\x91'
wogbk = wo.decode('utf-8').encode('gbk')
print wogbk
#亂碼 
a = 'ww'.encode('gbk')
print a
#ww
k1 = os.listdir('/home/sy/finetuneVGGFACE/demoImage_crop/王光偉')[0]
print type(k1)
#型別為str
print k1
k = os.listdir('/home/sy/finetuneVGGFACE/demoImage_crop/王光偉'.decode('utf-8'))[0]
print type(k)
#型別為unicode
print k.encode('utf-8')

#print k.encode('ascii') 
#assert k.decode('utf-8') == u'王光偉'

import chardet

a = '我wowowowowow我我我我我我'
print a
chardet.detect(a)

我wowowowowow我我我我我我





{'confidence': 0.99, 'encoding': 'utf-8', 'language': ''}

a = '我wowowowowow我我我我我我'.decode('utf-8').encode('gbk')
print a
chardet.detect(a)

��wowowowowow������������





{'confidence': 0.99, 'encoding': 'GB2312', 'language': 'Chinese'}

import locale

print locale.getdefaultlocale()

('zh_CN', 'UTF-8')

a = u'你好'
b = '你好'
b = b.decode('utf-8').encode('gbk')

print a

你好

print b

���

a = u'a我我我'

u'a\u6211\u6211\u6211'

chardet.detect(a)

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

<ipython-input-25-f83d6a7ce375> in <module>()
----> 1 chardet.detect(a)


/Users/eclipsycn/anaconda2/lib/python2.7/site-packages/chardet/__init__.pyc in detect(byte_str)
     32         if not isinstance(byte_str, bytes):
     33             raise TypeError('Expected object of type bytes or bytearray, got: '
---> 34                             '{0}'.format(type(byte_str)))
     35         else:
     36             byte_str = bytearray(byte_str)


TypeError: Expected object of type bytes or bytearray, got: <type 'unicode'>

# coding:utf-8
import sys
print sys.getdefaultencoding()
import chardet
a = 'uslngslkengslkfsng'.decode('utf-8').encode('utf-8')
b = '好好好好啊wefwlngsf'.decode('utf-8').encode('gbk')
print a
print b
print chardet.detect(a)
print chardet.detect(b)

ascii
uslngslkengslkfsng
�úúúð�wefwlngsf
{'confidence': 1.0, 'language': '', 'encoding': 'ascii'}
{'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'}

在pycharm中，執行

# coding:gbk
import sys
print sys.getdefaultencoding()
reload(sys)
sys.setdefaultencoding('utf-8')
#此處utf-8的作用是預設decode為(utf-8)
print sys.getdefaultencoding()
import locale
print locale.getdefaultlocale()
import chardet
print sys.getdefaultencoding()
b = '我我我我我我我無無'.decode('gbk').encode('gbk')
#此處意義在於：‘我’字串為gbk編碼，可以利用gbk解碼為unicode，而如果 ‘我’.encode('gbk')則預設採用sys.getdefaultencoding()，utf-8解碼，則會出現錯誤。
print b
print chardet.detect(b)

ascii
utf-8
('zh_CN', 'UTF-8')
utf-8
������������������
{'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'}

在Windows中，預設環境為GBK編碼方式。所以有如下程式碼測試：

在pycharm中

#coding:utf-8
import os 
path = './測試/'.decode('utf-8')
for i in os.listdir(path):
    print i

經過測試 os.listdir()的輸入引數如果是unicode編碼，如u(‘./’)，返回的是unicode通用編碼。如果輸入的是一般不帶u的普通編碼，如gbk(windows)，utf-8(ubuntu)，類似與os.listdir(‘,/’)，則會返回相應環境的編碼。
由於在windows中，print 為gbk編碼，故轉化為gbk顯示。

#coding:utf-8
a ='\xce\xd2' #wo de gbk 
print a.decode('gbk')
assert a.decode('gbk').encode('utf-8') == '我'

輸出我

在windows命令列中:
全部為gbk環境下
經過測試 os.listdir()的輸入引數如果是unicode編碼，如u(‘./’)，返回的是unicode通用編碼。如果輸入的是一般不帶u的普通編碼，如gbk(windows)，utf-8(ubuntu)，類似與os.listdir(‘,/’)，則會返回相應環境的編碼。在windows的gbk中呼叫。原理與上述內容編碼原理相同。

>>>import os
>>>os.listdir('./測試') #error因為sys.getdefaultencoding()預設ascii編碼方式
>>>a = os.listdir('./測試'.decode('gbk'))
>>>a
[u'201709\u8981\u6295']
>>>print a
'201709要投' #因為print 是gbk 環境
>>>print a.encode('gbk')
'201709要投' #與上條相同，因為上條預設gbk
>>>a.encode('gbk') == '201709要投'
True

python unicode 及解碼編碼方式簡介

python及編碼原理測試

基於utf—8環境。

在Windows中，預設環境為GBK編碼方式。所以有如下程式碼測試：

python unicode 及解碼編碼方式簡介

Python Unicode編碼方式

python中的字符串編碼問題——4.unicode編解碼（以實際工作中遇到的韓文編碼為例）

編碼方式ASCII、Unicode和UTF-8的區別及聯絡

各種字元編碼方式詳解及由來(ANSI,UNICODE,UTF-8,GB2312,GBK)

編碼格式簡介：ASCII碼、ANSI、GBK、GB2312、GB18030和Unicode、UTF-8，BOM頭

python蛋疼的編碼decode、encode、unicode、str、byte的問題都在這了

從Python的角度來看編碼與解碼

Python Unicode編碼

各種語系的unicode對應以及local編碼方式

Python讀取文件編碼解碼問題

python 字符串編碼 str和unicode 區別以及相互轉化 decode('utf-8') encode('utf-8')

[eclipse]添加python默認模板，在首行添加編碼方式（# -- coding: utf-8 --）

python的 == 和 is,編碼和解碼

Python安裝及簡介

python筆記二（數據類型和變量、編碼方式、字符串的編碼、字符串的格式化）

Python頭部2行 #!/usr/bin/python 和 #!/usr/bin/env 的區別以及編碼方式的指定 2018-10-23

[Python隨筆]Python函式命名-PEP8編碼規範的說明及IDE提示的忽略

c# UTF-8解碼編碼及陣列與List<string>之間轉換等基本知識點總結

簡述字串三種編碼方式的發展及聯絡

python unicode 及解碼編碼方式簡介

python及編碼原理測試

基於utf—8環境。

在Windows中，預設環境為GBK編碼方式。所以有如下程式碼測試：

相關推薦