python 字符編碼處理問題總結徹底擊碎亂碼！

阿新 • • 發佈：2017-07-08

解析有意義 odi span data- posit 網頁 class ack

Python中常常遇到這種字符編碼問題，尤其在處理網頁源代碼時（特別是爬蟲中）：

UnicodeDecodeError: ‘XXX‘ codec can‘t decode bytes in position 12-15: illegal multibyte...

以下以漢字‘哈‘來解釋作演示樣例解釋全部的問題。漢字“哈”的各種編碼例如以下：

1 UNICODE(UTF8-16): 0xC854

2 UTF-8: 0xE59388

3 GBK: 0xB9FE

除此之外還有如gb2312, big5等。比如一些含有繁體字的頁面。比方www.google.com.hk首頁中用的就是big5碼。

不知道港臺的碼農同一時候處理簡體字繁體字是不是更郁悶 :)

一直以來，python中的中文編碼就是一個大問題。為他他並不能智能識別編碼，而實際上其它語言也非常難做到。

在html的header裏一般都能夠找到字符編碼比如：

當然這不是我們研究的重點。很多其它的時候是我們得知一個字符串是GBK編碼。而要用print等正確的打印出來卻不easy...

首先，在python中提到unicode。一般指的是unicode對象。比如‘哈哈‘的unicode對象為u‘\u54c8\u54c8‘

而str是一個字節數組，這個字節數組表示的是對unicode對象編碼後(如utf-8、gbk、cp936、GB2312)的存儲的格式。這裏它

僅是一個字節流，沒有其他的含義，假設你想使這個字節流顯示的內容有意義，就必須用正確的編碼格式，解碼顯示。

比如：（註意是在windows下）

s = u‘哈哈‘

s_utf8 = s.encode(‘utf-8‘)

pirnt s_utf8

>>> 鍝堝搱

悲劇...

s_utf8這時實際上是‘\xe5\x93\x88\xe5\x93\x88‘

而以下的代碼才幹夠正常顯示：

s_gdb = s.encode(‘gbk‘) # s_gdk 這時是‘\xb9\xfe\xb9\xfe‘

print s_gbk

>>> 哈哈 #正常了

由於print語句它的實現是將要輸出的內容傳送了操作系統，操作系統會依據系統的編碼對輸入的字節流進行編碼。這就解釋了

utf-8格式的字符串“哈哈”。輸出的是“鍝堝搱”，由於 ‘\xe5\x93\x88\xe5\x93\x88‘用GB2312去解釋，其顯示的出來就

“鍝堝搱”。

這裏再強調一下，str記錄的是字節數組。僅僅是某種編碼的存儲格式。至於輸出到文件或是打印出來是什麽格式，

全然取決其解碼的編碼將它解碼成什麽樣子。

這裏再對print進行一點補充說明：當將一個unicode對象傳給print時。在內部會將該unicode對象進行一次轉換，

轉換成本地默認編碼（這僅是個人推測）

str和unicode對象的轉換。通過encode和decode實現，詳細使用例如以下：再次強調windows下：

s = ‘哈哈‘

print s.decode(‘gbk‘).encode(‘utf-8‘)

>>> 鍝堝搱

反之亦然，有興趣能夠嘗試其它轉換

有時當我們遇到把s(gbk字符串)直接編碼成utf-8的時候，將拋出異常。可是通過調用例如以下代碼：

import sys

reload(sys)

sys.setdefaultencoding(‘gbk‘)

後就能夠轉換成功。為什麽呢？

在python中str和unicode在編碼和解碼過程中，假設將一個str直接編碼成還有一種編碼，會先把str解碼成unicode，

採用默認編碼，一般默認編碼是anscii，所以在上面演示樣例代碼中第一次轉換的時候會出錯。

當設定當前默認編碼為‘gbk‘後。就不會出錯了。

至於reload(sys)是由於Python2.5 初始化後會刪除 sys.setdefaultencoding 這種方法。我們須要又一次加載。

一般不推薦這樣使用。本來reload都是應該避免使用的函數。

對於操作不同文件的編碼格式的文件，也會遇到這種問題

建立一個文件test.txt，文件格式用ANSI，內容為:

abc中文

然後用python來讀取

# coding=gbk

print open("Test.txt").read()

結果：abc中文

把文件格式改成UTF-8：

結果：abc涓枃。顯然，這裏須要解碼：

# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

結果：abc中文

上面的test.txt我是用Editplus來編輯的，但當我用Windows自帶的記事本編輯並存成UTF-8格式時。

執行時報錯：

Traceback (most recent call last):

File "ChineseTest.py", line 3, in

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character u‘\ufeff‘ in position 0: illegal multibyte sequence

原來。某些軟件，如notepad。在保存一個以UTF-8編碼的文件時，

會在文件開始的地方插入三個不可見的字符（0xEF 0xBB 0xBF，即BOM）。

因此我們在讀取時須要自己去掉這些字符，python中的codecs module定義了這個常量：

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

結果：abc中文

最後，有些時候編碼搞對了，可是遇到了非法字符。比方產生字符串的來源錯誤發生，引入了錯誤值等，這時再次遇到異常

比如：全角空格往往有多種不同的實現方式，比方\xa3\xa0，或者\xa4\x57,

這些字符，看起來都是全角空格。但它們並非“合法”的全角空格

真正的全角空格是\xa1\xa1，因此在轉碼的過程中出現了異常。

而之前在處理新浪微博數據時，遇到了非法空格問題導致無法正確解析數據。

解決的方法：

將獲取的字符串strTxt做decode時，指明ignore，會忽略非法字符,

當然對於gbk等編碼。處理相同問題的方法是類似的

strTest = strTxt.decode(‘utf-8‘, ‘ignore‘)

return strTest

默認的參數就是strict，代表遇到非法字符時拋出異常；

假設設置為ignore，則會忽略非法字符；

假設設置為replace，則會用?

號代替非法字符；

假設設置為xmlcharrefreplace，則使用XML的字符引用。

其它的以後遇到再總結.....

python 字符編碼處理問題總結徹底擊碎亂碼！

解析有意義 odi span data- posit 網頁 class ack Python中常常遇到這種字符編碼問題，尤其在處理網頁源代碼時（特別是爬蟲中）： UnicodeDecodeError: ‘XXX‘ codec can‘t decode bytes in

python 字符編碼問題總結

日本 pos 方式 bsp 字符 str 美國人什麽問題總結都是計算機存儲是二進制0101之類的數字最早計算機在美國開始的所以數字和英文之類的占用八位 2的8次方 256可以存儲對於英文和數字戳戳有余每個國家都有自己的編碼中國 gb2312 gbk gb18

06 Python字符編碼與文件處理

-- 返回計算機 mode 讀寫文件數字參數 euc 清空文件 python垃圾回收機制: python中的垃圾回收機制是以引用計數為主,分代收集為輔,引用計數的缺陷是循環引用的問題,一個對象的引用數為0 ,那麽這個對象就會被python虛擬機回收內存字符

字符編碼詳解——徹底理解掌握編碼知識，“亂碼”不復存在

想法 3.3 無符號 orm 微軟公司詳解表示 xxxxxx 全部每一個程序員都不可避免的遇到字符編碼的問題，特別是做Web開發的程序員，“亂碼問題”一直是讓人頭疼的問題，也許您已經很少遇到“亂碼”問題，然而，對解決亂碼的方法的內在原理，您是否明白？本人作為一個程序員

python字符編碼

height 計算速度慢 char bytes bit lose line 後來 1. 字符編碼簡介階段一：現代計算機起源於美國，最早誕生也是基於英文考慮的ASCII ASCII:一個Bytes代表一個字符（英文字符/鍵盤上的所有其他字符），1Bytes=8bit，8b

python---字符編碼

type 分享 utf-8 sci string span py3 unicode轉換 png 1. 無論py2還是py3，字符編碼之間相互轉換，如gbk轉換成utf-8，都需要通過unicode中轉 , 2. 將非unicode轉換成unicode的時候，是需要告知原本是

python字符編碼與轉碼

python字符編碼與轉碼 python2.x字符編碼與轉碼 python3.x字符編碼與轉碼 python 2.x 字符編碼與轉碼打印系統默認編碼格式import sys print(sys.getdefaultencoding())UTF-8 轉 gbk方式：utf-8--轉成--unicod

python - 字符編碼篇

占用 logs utf blank big5 tro 自然成了數據庫本章內容什麽是字符編碼？ python默認編碼 decode（解碼）和encode（編碼）前言　　對於字符編碼的問題，在學習python的過程中，很多新手都為之瘋狂，本人

python字符串處理

values com including for color nal concat raise tween 字符串處理絕對是任何一門語言的重點。 str.partition(sep) Split the string at the first occurrence of s

Python 字符編碼

nic reader n) 文件類型 Coding utf-8 猜想所有 utf8編碼采用標準庫codecs模塊 codecs.open(filename, mode=‘r‘, encoding=None, errors=‘strict‘, buffering=1)

python 字符串處理

pan star repl orm 文件 enter 首字母數字 bsp # -*- coding:utf-8 -*- name = "wangcai" #首字母大寫 print(name.capitalize()) #統計 a出現的次數 print(nam

Python字符編碼與函數基本使用-day3

you rgs 內置函數無法 lov 格式 img 這一 day3 解決Python2和Python3中字符編碼的問題補充Python2中文件操作的說明函數使用基礎函數的類型一、Python2中的字符存在的解碼編碼問題　　如果是現在正在用Python2的

前後臺的字符編碼處理

問題 code 後臺 urlencode 頁面解碼 ava 字符 component 　在後臺與前臺數據交互時如果有特殊字符就很容易出現問題，所以就需要對字符串進行編碼傳輸，在獲取後再進行解碼：１.java後臺進行編碼與解碼 URLEncoder.encode(str,

常用python字符串處理

換行符包括 string 圖片 col replace logs import line 1、字符串合並和連接加號合並　　　　　　　　　　　　　　　 join方法合並 2、相乘和切片 line=‘*‘*30 print(line) >>*********

python---字符編碼與轉碼

mage 字符 nco tool utf8 toolbar ima nic http 1.在python2：#-*- coding:utf-8 -*- import sys print(sys.getdefaultencoding()) #獲取系統默

python全棧開發【第六篇】Python字符編碼

原理如果多語言 bubuko shift 滿足避免穩定性都是 1.內存和硬盤都是用來存儲的。 CPU：速度快硬盤：永久保存 2.文本編輯器存取文件的原理（nodepad++,pycharm,word）　　　打開編輯器就可以啟動一個進程，是在內存中的，所

Python 字符編碼簡記

直接字符編碼 gpo gb2 utf-8 ssi clas unicode 編碼集 Assic 碼是不支持中文的，支持中文的第一張表是 GB2312 GB2312 收錄了 7445個字符 GBK1.0 收錄了 21886個字符 GB18030 收錄了

深入理解H5鬥公牛開發的Python字符編碼

hang 你是 ren lib 很多前綴字符所有 ast H5鬥公牛開發的Python字符編碼論壇：aqiulian.com，更多Python字符編碼咨詢Q:212303635。不論你是有著多年經驗的 Python 老司機還是剛入門 Python 不久，你一定遇到過U

python 字符串部分總結

輸出十六進制 CI usr 17.1 可執行程序讀取 pan 方法字符串對於單個字符的編碼，Python提供了ord()函數獲取字符的整數表示，chr()函數把編碼轉換為對應的字符 >>> ord(‘A‘) 65 >>> ord

第七章、Python字符編碼

編碼格式點擊這一浪費 end 定性支持開始 can 第七章、Python字符編碼一、定義計算機中儲存的信息都是用二進制數表示的，而我們在屏幕上看到的英文、漢字等字符是二進制數轉換之後的結果。通俗的說，按照何種規則將字符存儲在計算機中，如‘a‘用什麽表示，稱為"

python 字符編碼處理問題總結 徹底擊碎亂碼！

相關推薦

python 字符編碼處理問題總結徹底擊碎亂碼！