Python轉碼問題的解決方法——illegal multibyte sequence

阿新 • • 發佈：2019-02-13

1.錯誤提示“UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 305: ordinal not in range(128)”

（1）原始碼為：

# coding:utf-8

import pytesseract
from PIL import Image

# tesseract.exe的全路徑
pytesseract.pytesseract.tesseract_cmd = r"D:\Python2.7\tesseract\Tesseract-OCR\tesseract.exe"
# 想要開啟的檔案的全路徑
image = Image.open(r"D:\Program\01.png")

text = pytesseract.image_to_string(image)
# text = pytesseract.image_to_string(image, lang="chi_sim")

with open(r"C:\Users\HuangQi\Desktop\01.txt", "w") as fp:
    fp.write(text.decode("utf-8", "ignore"))
    print text

（2）出現的錯誤提示為：

D:\Python2.7\python.exe D:/PyCharm/dytt_spider/text.py
Traceback (most recent call last):
  File "D:/PyCharm/dytt_spider/text.py", line 18, in <module>
    fp.write(text.decode("utf-8", "ignore"))
  File "D:\Python2.7\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 305: ordinal not in range(128)

Process finished with exit code 1

（3）解決方案為：

在.py檔案的開頭加上如下程式碼：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

關於為什麼要reload(sys)？

因為這裡的import語句可能不是sys的第一次匯入語句，可能是第2、3次進行sys模組的import，這裡是一個對sys的引用，只能reload才能進行重新載入。

為什麼要重新載入，而直接引用過來則不能呼叫該函式？

因為setdefaultencoding()函式在被系統呼叫後被刪除了（所以如果不重新載入，在Pycharm中顯示setdefaultencoding()函式不存在），所以通過import引用進來時其實已經沒有了，所以必須reload一次sys模組，這樣setdefaultencoding()才會為可用，才能在程式碼裡修改直譯器當前的字元編

碼。

2. 在Python中，可以對String呼叫decode和encode方法來實現轉碼。

（1）比如，若要將某個String物件s從gbk內碼轉換為UTF-8，可以如下操作
s.decode('gbk').encode('utf-8′)

可是，在實際開發中，我發現，這種辦法經常會出現異常：

UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence

這是因為遇到了非法字元——尤其是在某些用C/C++編寫的程式中，全形空格往往有多種不同的實現方式，比如\xa3\xa0，或者\xa4\x57，這些字元，看起來都是全形空格，但它們並不是“合法”的全形空格（真正的全形空格是\xa1\xa1），因此在轉碼的過程中出現了異常。
這樣的問題很讓人頭疼，因為只要字串中出現了一個非法字元，整個字串——有時候，就是整篇文章——就都無法轉碼。 （2）解決辦法：
s.decode('gbk', ‘ignore').encode('utf-8′)
因為decode的函式原型是decode([encoding], [errors='strict'])，可以用第二個引數控制錯誤處理的策略，預設的引數就是strict，代表遇到非法字元時丟擲異常；
如果設定為ignore，則會忽略非法字元；
如果設定為replace，則會用?取代非法字元；
如果設定為xmlcharrefreplace，則使用XML的字元引用。 python文件 decode( [encoding[, errors]])

Python轉碼問題的解決方法——illegal multibyte sequence

1.錯誤提示“UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 305: ordinal not in range(128)”（1）原始碼為：# coding:utf-

Python中轉碼錯誤遇到 illegal multibyte sequence

當呼叫如下語句： re_data = re_data.decode('gbk') #re_data 是#-*- coding: cp936 -*-型別字串，即gbk編碼如果字串中有非法字元，有時會

python讀取txt檔案的錯誤 gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence”的解決辦法

眾所周知，python對檔案讀寫不友好在我匯入一個新建utf-8 txt檔案依然報錯之後最終 data11=open("D:/Downloads/盜墓筆記全集.txt").read().en

解決python錯誤 UnicodeDecodeError: 'gb2312' codec can't decode byte 0x8b in position 1: illegal multibyte sequence

family can accep div 分析忽略數據程序 osi 報錯的代碼： url= ‘http://kaijiang.500.com/shtml/ssq/19001.shtml‘ page =urllib.request.urlopen(url) c

python 讀取文件時報錯UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence

gbk erro unicode log Coding post txt文件 odi 讀取 python讀寫txt文件轉化成excel文件 python讀取文件時提示"UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0

'gbk' codec can't encode character 'xa5' in position 4546: illegal multibyte sequence錯誤解決

col .net details 錯誤 tex encode seq 錯誤解決 pan sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=‘gb18030‘)原文 http://blog.csdn.net/j

UnicodeEncodeError: 'gbk' codec can't encode character 'xa0' in position 9865: illegal multibyte sequence 解決辦法

ack mov rep pos encode string flow char ng- 解決辦法 ; a=r.text.replace(‘\xa0‘,‘ ‘)詳情參見https://stackoverflow.com/questions/10993612/python-r

Python文件讀取報錯 UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 9: illegal multibyte sequence

http style png can odi utf posit python dede 源代碼： fo = open("***.csv","r") 報錯：解決方案： fo = open("***.csv","r",encoding=‘UTF-8‘) Pyth

python 讀取文件時報錯： UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence

報錯 error: open 解決辦法 post code 讀取文件 utf-8 gpo UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa4 in position 127: illegal multibyte se

python開啟檔案失敗，報錯'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

python3.7,python3.6都存在的問題：讀取的檔案編碼是utf-8 第1行是空行、#開頭都可能會報這個錯誤： E:\count_packet>python string_count.py'gbk' codec can't decode byte 0xbf in position 2:

python讀取中編碼錯誤（illegal multibyte sequence ）

讀取中文txt檔案時，經常會出現: ‘gbk’ codec can’t decode bytes in position 31023: illegal multibyte sequence。主要講一種情況就是文章中含有utf-8或gbk無法編碼的字元情況。好

python 寫入日誌的問題 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence UnicodeEnco

最近，使用python的logging模組，因為這個寫入日誌寫完後就沒有管它。在儲存日誌資訊的時候，一直提示：　　 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte

Python轉碼問題的解決方法——illegal multibyte sequence

1.錯誤提示“UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 305: ordinal not in range(128)”

2. 在Python中，可以對String呼叫decode和encode方法來實現轉碼。

Python轉碼問題的解決方法——illegal multibyte sequence

Python中轉碼錯誤遇到 illegal multibyte sequence

python讀取txt檔案的錯誤 gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence”的解決辦法

解決python錯誤 UnicodeDecodeError: 'gb2312' codec can't decode byte 0x8b in position 1: illegal multibyte sequence

python 讀取文件時報錯UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence

'gbk' codec can't encode character 'xa5' in position 4546: illegal multibyte sequence錯誤解決

UnicodeEncodeError: 'gbk' codec can't encode character 'xa0' in position 9865: illegal multibyte sequence 解決辦法

Python文件讀取報錯 UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 9: illegal multibyte sequence

python 讀取文件時報錯： UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 127: illegal multibyte sequence

python開啟檔案失敗，報錯'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

python讀取中編碼錯誤（illegal multibyte sequence ）

python 寫入日誌的問題 UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence UnicodeEnco

python執行報錯“UnicodeDecodeError: 'gbk' codec can't decode byte 0xa1 in position 110: illegal multibyte sequence”

python 3.0讀取文件出現編碼錯誤（illegal multibyte sequence ）

Python讀取txt文字出現“ 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence”

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 9: illegal multibyte sequence

導入數據庫出現html lang='zh' dir='ltr' class='ie ie7錯誤代碼解決方法

UnicodeDecodeError: 'gbk' codec can't decode byte 0xbc in position 21: illegal multibyte sequence

UnicodeEncodeError: 'gbk' codec can't encode character 'xa0' in position 1987: illegal multibyte sequence

NGINX反向代理對HTML頁面的POST請求返回405狀態碼解決方法

Python轉碼問題的解決方法——illegal multibyte sequence

1.錯誤提示“UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 305: ordinal not in range(128)”

2. 在Python中，可以對String呼叫decode和encode方法來實現轉碼。

相關推薦