RedisCrawlSpider爬蟲遇到 `明威把`不能轉換為漢字的解決辦法

阿新 • • 發佈：2018-11-06

問題闡述

爬取網頁時，正常情況下python3中能直接轉化為utf-8，即所謂的漢字能夠正常顯示。所以即使網頁中顯示的是這種escape sequence，獲取到之後能夠顯示正常，但是偶爾也不好使，不好使的情況下就會出現以下的charref狀態：
明威把

解決方法

In [1]: from html.parser import HTMLParser
In [2]: HTMLParser().unescape("&#x660e;&#x5a01;&#x628a;")
Out[2]: '明威把'

原因解釋

HtmlParser，顧名思義，是解析Html的一個工具。python自帶的。

一、常用屬性和方法介紹

HtmlParser是一個類，在使用時一般繼承它然後過載它的方法，來達到解析出需要的資料的目的。

1.常用屬性：

lasttag，儲存上一個解析的標籤名，是字串。

2.常用方法：

handle_starttag(tag, attrs) ，處理開始標籤，比如<div>；這裡的attrs獲取到的是屬性列表，屬性以元組的方式展示
　　　　handle_endtag(tag) ，處理結束標籤,比如</div>
　　　　handle_startendtag(tag, attrs) ，處理自己結束的標籤，如<img />

handle_data(data) ，處理資料，標籤之間的文字
　　　　handle_comment(data) ，處理註釋，之間的文字

如果我們要編寫一個搜尋引擎，第一步是用爬蟲把目標網站的頁面抓下來，第二步就是解析該HTML頁面，看看裡面的內容到底是新聞、圖片還是視訊。

假設第一步已經完成了，第二步應該如何解析HTML呢？

HTML本質上是XML的子集，但是HTML的語法沒有XML那麼嚴格，所以不能用標準的DOM或SAX來解析HTML。

好在Python提供了HTMLParser來非常方便地解析HTML

RedisCrawlSpider爬蟲遇到 `明威把`不能轉換為漢字的解決辦法

問題闡述

解決方法

原因解釋

RedisCrawlSpider爬蟲遇到 `&#x660e;&#x5a01;&#x628a;`不能轉換為漢字的解決辦法

Python爬蟲時翻頁等操作URL不會改變的解決辦法----以攜程評論爬取為例

java開發常遇錯誤：Column 'AAA' in where clause is ambiguous解決辦法

【Python】Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜

爬蟲記(二) - Idea安裝Scrapy & Scrapy入門

BEGINNING SHAREPOINT&#174; 2013 DEVELOPMENT 第11章節--為Office和SP解決方式開發集成Apps Office新的App模型

解決QT：forward declaration of &#39;struct Ui::xxx&#39;;invalid use of incomplete struct &quot;Ui::Widget&quot; 等莫名奇異錯誤

IOS開發——手勢 &amp; 傳感器 &amp; 物理引擎

jpa緩存導致無法查詢到更新後的數據&android出現ANR的一個解決辦法

小胖說事31------iOS 真機編譯錯誤&quot;“XXX”的 iPod&quot; and run &quot;XXX&quot; again, or if &quot;XXX&quot; is still running

『TensorFlow』隊列&多線程&TFRecod文件_我輩當高歌

TypeError: Error #1034: 強制轉換類型失敗:無法將 &quot;&quot; 轉換為 Array。

atitit.js&#160;與c#&#160;java交互html5化的原理與總結.doc

使用 gradle 在編譯時動態設置 Android resValue / BuildConfig / Manifes中&lt;meta-data&gt;變量的值

【C#】報表制作&lt;機房重構&gt;

[Hibernate]Access to DialectResolutionInfo cannot be null when &#39;hibernate.dialect&#39; not set

PoEdu - Windows階段班【Po學校】Lesson006_線程_線程的啟動到消亡 &線程狀態 & 線程安全 & CONTEXT結構體 & 令牌鎖

&quot;浪潮杯&quot;第六屆ACM山東省省賽山科場總結

【C#】單例模式&lt;機房重構&gt;

POJ 3177--Redundant Paths【無向圖添加最少的邊成為邊雙連通圖 &amp;&amp; tarjan求ebc &amp;&amp; 縮點構造縮點樹】

RedisCrawlSpider爬蟲遇到 `&#x660e;&#x5a01;&#x628a;`不能轉換為漢字的解決辦法

問題闡述

解決方法

原因解釋

相關推薦

RedisCrawlSpider爬蟲遇到 `明威把`不能轉換為漢字的解決辦法