1. 程式人生 > >python3中將``(《新)的字串轉化為utf-8

python3中將``(《新)的字串轉化為utf-8

對於網頁中的《新编全&#x6ce8 ,正常情況下python3中能直接轉化為utf-8,所以即使網頁中顯示的是這種escape sequence,獲取到之後能夠顯示正常,但是偶爾也不好使,不好使的情況下可以使用如下方法解決:

安裝HTMLParser

pip install HTMLParser

修改HTMLParser的原始碼

修改import markupbaseimport _markupbase as markupbase (在原始碼的第11行)

修改return unichr(c)

return chr(c) python3中沒有unichr,用chr即可(在原始碼的456行)

使用方法

from HTMLParser import HTMLParser
HTMLParser().unescape("《新编全注")