網頁爬蟲中\xa0、\u3000等字元的解釋及去除

阿新 • • 發佈：2020-09-02

\xa0表示不間斷空白符，爬蟲中遇到它的概率不可謂不小，而經常和它一同出現的還有\u3000、\u2800、\t等Unicode字串。單從對\xa0、\t、\u3000等含空白字元的處理來說，有以下幾種方法可行：

使用`re.sub`

使用正則表示式可以輕鬆匹配所有空白字元，它對於Unicode字元也是有效的，比如：

import re
s = 'T-shirt\xa0\xa0短袖圓領衫,\u3000體恤衫\xa0買一件\t吧'
re.sub('\s', ' ', s)

#T-shirt  短袖圓領衫, 體恤衫 買一件 吧

不過該正則表示式會對所有字元都進行統一處理，可能會與原頁面展示效果有所出入。

使用`translate`

方法

str物件的translate方法也是去除這些字串的好幫手，該方法具體用法可參考Python標準庫，本處使用示例如下：

inputstring = u'\n               Door:\xa0Novum    \t'
move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))
output = inputstring.translate(move)
output
# Door:Novum

利用`split`方法

將字串分割再重組，這時候空白字元就會被pass掉了，不過該方法殺傷力太大，會導致所有空白消失，一定要慎用。
使用示例：

s = ' 
T-shirt\xa0\xa0短袖圓領衫,\u3000體恤衫\xa0買一件\t吧'
''.join(s.split())
# T-shirt短袖圓領衫,體恤衫買一件吧

使用`unicodedata`模組

Python標準庫的unicodedata模組提供了normalize方法將Unicode字元轉換為正常字元，該方法可算是處理這類情況最好的方法了，它會讓字元迴歸到我們期望看到的樣子，同時不損害其它正常的空白字元，而且還能還原其它非空白字元。normalize第一個引數指定字串標準化的方式。 NFC表示字元應該是整體組成(比如可能的話就使用單一編碼)，而NFD表示字元應該分解為多個組合字元表示。Python

同樣支援擴充套件的標準化形式NFKC和NFKD，它們在處理某些字元的時候增加了額外的相容特性。使用該方法處理\xa0等字元的示例如下：

import unicodedata
s = 'T-shirt\xa0\xa0短袖圓領衫,\u3000體恤衫\xa0買一件\t吧'
unicodedata.normalize('NFKC', s)
# T-shirt  短袖圓領衫, 體恤衫 買一件 吧

網頁爬蟲中\xa0、\u3000等字元的解釋及去除

使用`re.sub`

使用`translate`

方法

利用`split`方法

使用`unicodedata`模組

網頁爬蟲中\xa0、\u3000等字元的解釋及去除

Python爬蟲中最重要、最常見、一定要熟練掌握的庫

shell中針對數字、filename字串等的判斷引數的總結

騰訊：網路水軍在吳亦凡事件中造謠攻擊、誘導集資等，已嚴肅處置

金桔智慧物流之容器（托盤、週轉箱等）定位及週轉方案原理

單元測試、整合測試、系統測試、負載測試、穩定性測試等相關比喻及實際工作場景

吉利汽車：幾何 A/C、帝豪 EV 等新能源及電氣化車型 10 月銷量為 7909 輛

網易雲音樂與風華秋實公司達成合作：獲黑豹樂隊、鹿晗等眾多音樂人及樂隊的作品版權

《賽博朋克2077》1.5版本影舞流、黑客流等玩法及特點介紹

python爬蟲中或者字串中或者js檔案中遇到“\x”的解決方法，轉碼方法

如何分離django中的媒體、靜態檔案和網頁

Python 字串處理特殊空格\xc2\xa0\t\n Non-breaking space

HTML轉義字元&npsp；表示non-breaking space \xa0

Mybatis中foreach標籤帶來的空格\換行\回車問題及解決方案

Python3之亂碼\xe6\x97\xa0\xe6\xb3\x95處理方式

grep中使用"\d"匹配數字不成功的原因解決

python中tkinter視窗位置\座標\大小等實現示例

OpenCV4學習筆記（2.1）Windows系統 | 檔案路徑表示法 | ./、../、/、~的作用 | /、//、\等之間的區別 | 字串的原始字面量R"(...)"

輸入鍵盤沒有的控制字元如換行符 ‘\n‘ 、分頁符 ‘\f‘ 的方法

網路爬蟲中Fiddler抓取PC端網頁資料包與手機端APP資料包

網頁爬蟲中\xa0、\u3000等字元的解釋及去除

使用re.sub

使用translate 方法

利用split方法

使用unicodedata模組

相關推薦

使用`re.sub`

使用`translate`

方法

利用`split`方法

使用`unicodedata`模組