python函式——編碼問題——str與Unicode的區別

阿新 • • 發佈：2019-01-17

一篇關於STR和UNICODE的好文章

整理下python編碼相關的內容

注意: 以下討論為Python2.x版本, Py3k的待嘗試

開始

用python處理中文時，讀取檔案或訊息，http引數等等，一執行，發現亂碼(字串處理，讀寫檔案，print)，然後，大多數人的做法是，呼叫encode/decode進行除錯，並沒有明確思考為何出現亂碼，所以除錯時最常出現的錯誤：

錯誤1:

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)

錯誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

首先

gbk和unicode

gbk和unicode互化：

def gbk_to_unicode(a):#a為一個gbk形式的字串
    #print a,type(a),len(a)#若a的每個中文長度為2，那麼表明其為gbk形式
    return a.decode("gbk")#或者如下，這兩句等價
    #return unicode(a,"gbk")
def unicode_to_gbk(a):
    return a.encode("gbk")

str 和 unicode

str和unicode都是basestring的子類，所以有判斷是否是字串的方法：

def is_str(s):     
    return isinstance(s, basestring)

str和unicode 轉換

decode 文件

encode 文件

str  -> decode(‘the_coding_of_str‘) -> unicode
unicode -> encode(‘the_coding_you_want‘) -> str

str.decode("coding")：解碼，將其他編碼對應的字串解碼成coding形式的字串。

str.encode("coding")：編碼，將unicode編碼轉換為另一種為coding形式的編碼，str需要為unicode編碼。

區別：str是位元組串，由unicode經過編碼(encode)後的位元組組成的

宣告方式

s = ‘中文‘ 
s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) 
<type ‘str‘>

求長度(返回位元組數)

>>> u‘中文‘.encode(‘utf-8‘) 
‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘)) 
6

unicode才是真正意義上的字串，由字元組成

宣告方式

s = u‘中文‘ 
s = ‘中文‘.decode(‘utf-8‘) 
s = unicode(‘中文‘, ‘utf-8‘) 
>>> type(u‘中文‘) 
<type ‘unicode‘>

求長度(返回字元數),在邏輯中真正想要用的

<span style="font-size:12px;">u‘中文‘ 
u‘\u4e2d\u6587‘ 
>>> len(u‘中文‘) 
2</span>

結論
搞明白要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

簡單原則：不要對str使用encode，不要對unicode使用decode (事實上可以對str進行encode的，具體見最後，為了保證簡單，不建議)

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

不同編碼轉換,使用unicode作為中間編碼

<span style="font-size:18px;">#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

檔案處理,IDE和控制檯

處理流程，可以這麼使用，把python看做一個水池，一個入口，一個出口，入口處，全部轉成unicode, 池裡全部使用unicode處理，出口處，再轉成目標編碼(當然，有例外，處理邏輯中要用到具體編碼的情況),過程：

讀檔案
外部輸入編碼，decode轉成unicode
處理(內部編碼，統一unicode)
encode轉成需要的目標編碼
寫到目標輸出(檔案或控制檯)

IDE和控制檯報錯，原因是print時，編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

>>> print u‘中文‘.encode(‘gbk‘)
 ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 
中文

建議

規範編碼，統一編碼，防止由於某個環節產生的亂碼，環境編碼，IDE/文字編輯器, 檔案編碼，資料庫資料表編碼，保證程式碼原始檔編碼。這個很重要，py檔案預設編碼是ASCII, 在原始碼檔案中，如果用到非ASCII字元，需要在檔案頭部進行編碼宣告文件

不宣告的話，輸入非ASCII會遇到的錯誤,必須放在檔案第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

宣告方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部宣告coding=utf-8, a = ‘中文‘ 其編碼為utf-8

若頭部宣告coding=gb2312, a = ‘中文‘ 其編碼為gbk

so, 同一專案中所有原始檔頭部統一一個編碼,並且宣告的編碼要和原始檔儲存的編碼一致(編輯器相關)，在原始碼用作處理的硬編碼字串，統一用unicode，將其型別和原始檔本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意這裡 s到這裡時，確保轉為unicode

以上幾步搞定後，你只需要關注兩個 unicode和你設定的編碼(一般使用utf-8)

處理順序

Decode early
Unicode everywhere
Encode later

相關模組及一些方法

獲得和設定系統預設編碼

>>> import sys 
>>> sys.getdefaultencoding()
 ‘ascii‘  
>>> reload(sys) 
<module ‘sys‘ (built-in)> 
>>> sys.setdefaultencoding(‘utf-8‘) 
>>> sys.getdefaultencoding() 
‘utf-8‘ 
str.encode(‘other_coding‘)

在python中，直接將某種編碼的str進行encode成另一種編碼str

#str_A為utf-8 str_A.encode(‘gbk‘) 
執行的操作是：
str_A.decode(‘sys_codec‘).encode(‘gbk‘) 
這裡sys_codec即為上一步 sys.getdefaultencoding() 的編碼

‘獲得和設定系統預設編碼‘和這裡的str.encode是相關的，但我一般很少這麼用，主要是覺得複雜不可控,還是輸入明確decode，輸出明確encode來得簡單些(個人觀點)
chardet

檔案編碼檢測，下載

>>> import chardet 
>>> f = open(‘test.txt‘,‘r‘) 
>>> result = chardet.detect(f.read()) 
>>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}

\u字串轉對應unicode字串

>>> u‘中‘ u‘\u4e2d‘  
>>> s = ‘\u4e2d‘ 
>>> print s.decode(‘unicode_escape‘) 
中  
>>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ 
>>> a.decode(‘unicode_escape‘) 
u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘

python unicode文件:入口

def gbk_to_unicode(a):#a為一個gbk形式的字串

    #print a,type(a),len(a)#若a的每個中文長度為2，那麼表明其為gbk形式
    return a.decode("gbk")#或者如下，這兩句等價
    #return unicode(a,"gbk")

def unicode_to_gbk(a):

    return a.encode("gbk")

python 字符串編碼 str和unicode 區別以及相互轉化 decode('utf-8') encode('utf-8')

encode unicode 字符串 code com bubuko src 區別分享圖片 python 字符串編碼 str和unicode 區別以及相互轉化 decode('utf-8') encode('utf-8'

Python中的str與unicode處理方法

text pre def 包括 unicode編碼 response 會有 determine 展示 Python中的str與unicode處理方法 2015/03/25 · 基礎知識 · 3 評論 · Python 分享到：42 原文出處： liuaiqi627

python函式——編碼問題——str與Unicode的區別

一篇關於STR和UNICODE的好文章整理下python編碼相關的內容注意: 以下討論為Python2.x版本, Py3k的待嘗試開始用python處理中文時，讀取檔案或訊息，http引數等等，一執行，發現亂碼(字串處理，讀寫檔案，print)，然後，大多

python 中文 str 以及 unicode區別和互相轉換

加不加u是有區別的哦 unicode到string 只需要encode一下,尤其在我們讀取unicode的文字,然後需要進行字元拼接的時候,本身unicode無法進行拼接 string d

瞭解python中bytes,str和unicode的區別

首先來說把Unicode轉換為為原始8位值（二進位制資料），有很多種辦編寫Python程式的時候，核心部分應該用Unicode來寫，也就是python3中的str,python2中的unicode python3中2種表示字元序列的型別：bytes和str

python中的str與expr的一個區別例子

我也說不清楚到底python中的str()與repr()到底有什麼區別，下面的例子也許從某些方面能夠說明： >>> hi = "Hello\nWorld" >>>

Python基礎(十) init與new區別

ces weixin python2 code emp 類對象 nbsp 發現構造 __init__與__new__區別： __init__在python，其實是，在實例化之後執行的，用來初始化一些屬性，相當於構造函數，但是又不一樣細心一些，通過參數會有所發現，其實__

Python函式中的*與**

Python函式傳參中的*與** 在為函式呼叫時傳遞引數和函式定義時使用引數的時候，時常會看到有和 *和**，下面分別講解其作用。函式呼叫時使用*和 ** 假設有函式 def test(a, b, c) test(*args) :* 的作用其實就是把序列args中的每個元素，當作位置引數傳

python函式作用域與閉包

函式的定義在python中，是用def來建立一個函式，實際上def只是完成了一個類似與賦值的操作———把一個函式物件賦值給一個變數名，還記得我們之前說過在python中變數名只是一個識別符號，相當於起到了一個指標的作用，它沒有型別（明確這一點是很重要的），又因為python中的一切

Python中的str與bytes之間的轉換的三種方法

# bytes object b = b"example" # str object s = "example" # str to bytes sb = bytes(s, encoding = "utf8") # bytes to str bs = str(b, encod

SQLServer 表值函式與標量值函式定義方式與呼叫區別

SQLServer 表值函式與標量值函式定義方式與呼叫區別轉載自：http://blog.sina.com.cn/s/blog_648861b901012ay2.html SQLServer

QQA: Python 中的 str 與 repr

有時候，你會需要為你的類實現 __str__ 或 __repr__ 方法，你知道它們的作用是什麼嗎？它們有什麼區別嗎？這個問題的答案一搜就能找到，如果恰巧這是你第一次看到這個問題，不妨看看吧。 __repr__ 用於生成正式的表示。可以認為是將物件序列化的方法，原則上要能反序列化回物件。 __str__

UTF-8 與 unicode 區別

字元編碼是計算機技術的基石，想要熟練使用計算機，懂得一點字元編碼的知識，還是很有必要的。 1. ASCII碼我們知道，在計算機內部，所有的資訊最終都表示為一個二進位制的字串。每一個二進位制位（bit）有0和1兩種狀態，因此八個二進位制位就可以組合出256

js解碼編碼decodeURI與decodeURIComponent區別

這是一個系列，記錄我前端開發常用的程式碼，小常識，有些是參考網上程式碼，(講的可能有點爛，求不要打臉，嚶嚶嚶~~)送給那些需要的人。可以相互交流，喜歡的加我吧。 Wx: Lxp911221

Python中的str與bytes

在Python中，bytes和string是不同的東西。由一系列不可改變的Unicode字元組成的叫string。而一系列不可改變的介於0-255之間的數字被稱為bytes物件。 unicode是一種編碼標準，具體的實現標準可能是utf-8，utf-16，g

bytes、str與unicode

style pytho 使用代碼 something col code clas 接受 1、Python3字符序列的類型　　bytes -> 原始的8位值（既字節）　　str -> Unicode字符 2、Python2字符序列的類型　　str -&

python函式全域性變數與區域性變數

區域性變數：在函式中定義的變數一般只能在該函式內部使用，這些只能在程式的特定部分使用全域性變數：在一個檔案頂部定義的變數可以供該檔案中任意函式呼叫 1優先讀取區域性變數，能讀取全域性變數，無法對

python 字元編碼與解碼——unicode、str和中文：UnicodeDecodeError: 'ascii' codec can't decode

摘要：在進行python指令碼的編寫時，如果我們用python來處理網頁資料或者進行與中文字元有關的處理工作，經常出現這樣的出錯資訊：SyntaxError: Non-ASCII character '\xe6' in file ./filename.py on line

Python學習-str與byte類型以及編碼

ref 完成原理方式字符串 gin 取字符串重復入參 Python 3最重要的新特性之一是對字符串和二進制數據流做了明確的區分。文本總是Unicode，由str類型表示，二進制數據則由bytes類型表示。Python 3不會以任意隱式的方式混用str和bytes，

Python 格式化輸出 —— r 與 s 的區別（ repr 與 str ）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

python函式——編碼問題——str與Unicode的區別

開始

首先

gbk和unicode

str 和 unicode

檔案處理,IDE和控制檯

建議

相關模組及一些方法

相關推薦