Python爬蟲技術--基礎篇--內建模組XML和HTMLParser

阿新 • • 發佈：2021-01-03

1.XML

XML雖然比JSON複雜，在Web中應用也不如以前多了，不過仍有很多地方在用，所以，有必要了解如何操作XML。

DOM vs SAX

操作XML有兩種方法：DOM和SAX。DOM會把整個XML讀入記憶體，解析為樹，因此佔用記憶體大，解析慢，優點是可以任意遍歷樹的節點。SAX是流模式，邊讀邊解析，佔用記憶體小，解析快，缺點是我們需要自己處理事件。

正常情況下，優先考慮SAX，因為DOM實在太佔記憶體。

在Python中使用SAX解析XML非常簡潔，通常我們關心的事件是start_element，end_element和char_data，準備好這3個函式，然後就可以解析xml了。

舉個例子，當SAX解析器讀到一個節點時：

<a href="/">python</a>

會產生3個事件：

start_element事件，在讀取<a href="/">時；
char_data事件，在讀取python時；
end_element事件，在讀取</a>時。

用程式碼實驗一下：

from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
    def start_element(self, name, attrs):
        print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))

    def end_element(self, name):
        print('sax:end_element: %s' % name)

    def char_data(self, text):
        print('sax:char_data: %s' % text)

xml = r'''<?xml version="1.0"?>
<ol>
    <li><a href="/python">Python</a></li>
    <li><a href="/ruby">Ruby</a></li>
</ol>
'''

handler = DefaultSaxHandler()
parser = ParserCreate()
parser.StartElementHandler = handler.start_element
parser.EndElementHandler = handler.end_element
parser.CharacterDataHandler = handler.char_data
parser.Parse(xml)

需要注意的是讀取一大段字串時，CharacterDataHandler可能被多次呼叫，所以需要自己儲存起來，在EndElementHandler裡面再合併。

除了解析XML外，如何生成XML呢？99%的情況下需要生成的XML結構都是非常簡單的，因此，最簡單也是最有效的生成XML的方法是拼接字串：

L = []
L.append(r'<?xml version="1.0"?>')
L.append(r'<root>')
L.append(encode('some & data'))
L.append(r'</root>')
return ''.join(L)

如果要生成複雜的XML呢？建議你不要用XML，改成JSON。

小結

解析XML時，注意找出自己感興趣的節點，響應事件時，把節點資料儲存起來。解析完畢後，就可以處理資料。

2.HTMLParser

如果我們要編寫一個搜尋引擎，第一步是用爬蟲把目標網站的頁面抓下來，第二步就是解析該HTML頁面，看看裡面的內容到底是新聞、圖片還是視訊。

假設第一步已經完成了，第二步應該如何解析HTML呢？

HTML本質上是XML的子集，但是HTML的語法沒有XML那麼嚴格，所以不能用標準的DOM或SAX來解析HTML。

好在Python提供了HTMLParser來非常方便地解析HTML，只需簡單幾行程式碼：

from html.parser import HTMLParser
from html.entities import name2codepoint

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):
        print('<%s>' % tag)

    def handle_endtag(self, tag):
        print('</%s>' % tag)

    def handle_startendtag(self, tag, attrs):
        print('<%s/>' % tag)

    def handle_data(self, data):
        print(data)

    def handle_comment(self, data):
        print('<!--', data, '-->')

    def handle_entityref(self, name):
        print('&%s;' % name)

    def handle_charref(self, name):
        print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('''<html>
<head></head>
<body>
<!-- test html parser -->
    <p>Some <a href=\"#\">html</a> HTML&nbsp;tutorial...<br>END</p>
</body></html>''')

feed()方法可以多次呼叫，也就是不一定一次把整個HTML字串都塞進去，可以一部分一部分塞進去。

特殊字元有兩種，一種是英文表示的 ，一種是數字表示的Ӓ，這兩種字元都可以通過Parser解析出來。

小結

利用HTMLParser，可以把網頁中的文字、影象等解析出來。

Python爬蟲技術--基礎篇--內建模組XML和HTMLParser

1.XML XML雖然比JSON複雜，在Web中應用也不如以前多了，不過仍有很多地方在用，所以，有必要了解如何操作XML。

Python爬蟲技術--基礎篇--內建模組datetime和collections

1.datetime datetime是Python處理日期和時間的標準庫。獲取當前日期和時間我們先看如何獲取當前日期和時間：

Python爬蟲技術--基礎篇--內建模組hashlib和hmac

1.hashlib 摘要演算法簡介 Python的hashlib提供了常見的摘要演算法，如MD5，SHA1等等。

Python爬蟲技術--基礎篇--內建模組base64

1.base64 Base64是一種用64個字元來表示任意二進位制資料的方法。用記事本開啟exe、jpg、pdf這些檔案時，我們都會看到一大堆亂碼，因為二進位制檔案包含很多無法顯示和列印的字元，所以，如果要讓記事本這樣的文字處

Python爬蟲技術--基礎篇--內建模組itertools，contextlib和urllib

1.itertools Python的內建模組itertools提供了非常有用的用於操作迭代物件的函式。

Python爬蟲技術--基礎篇--常用第三方模組Pillow和requests

1.Pillow PIL：Python Imaging Library，已經是Python平臺事實上的影象處理標準庫了。PIL功能非常強大，但API卻非常簡單易用。

Python爬蟲技術--基礎篇--常用第三方模組chardet和psutil

1.chardet 字串編碼一直是令人非常頭疼的問題，尤其是我們在處理一些不規範的第三方網頁的時候。雖然Python提供了Unicode表示的str和bytes兩種資料型別，並且可以通過encode()和decode()方法轉換，但是，在不知道編碼

Python爬蟲技術--基礎篇--常用第三方模組virtualenv

在開發Python應用程式的時候，系統安裝的Python3只有一個版本：3.4。所有第三方的包都會被pip安裝到Python3的site-packages目錄下。

Python爬蟲技術--基礎篇--模組

模組概述在計算機程式的開發過程中，隨著程式程式碼越寫越多，在一個檔案裡程式碼就會越來越長，越來越不容易維護。

Python爬蟲技術--基礎篇--輸入與輸出語句

下面介紹Python一些基礎語法：參考廖老師官方網站 1.輸出與輸入用print()在括號中加上字串，就可以向螢幕上輸出指定的文字。比如輸出\'hello, world\'，用程式碼實現如下：

Python爬蟲技術--基礎篇--資料型別和變數，識別符號與關鍵字

1.資料型別計算機顧名思義就是可以做數學計算的機器，因此，計算機程式理所當然地可以處理各種數值。但是，計算機能處理的遠不止數值，還可以處理文字、圖形、音訊、視訊、網頁等各種各樣的資料，不同的資料，需要定

Python爬蟲技術--基礎篇--字串與編碼

1.字元編碼我們已經講過了，字串也是一種資料型別，但是，字串比較特殊的是還有一個編碼問題。

Python爬蟲技術--基礎篇--面向物件程式設計（中）

1.繼承與多型在OOP程式設計中，當我們定義一個class的時候，可以從某個現有的class繼承，新的class稱為子類（Subclass），而被繼承的class稱為基類、父類或超類（Base class、Super class）。

Python爬蟲技術--基礎篇--面向物件程式設計（上）

面向物件程式設計概述面向物件程式設計——Object Oriented Programming，簡稱OOP，是一種程式設計思想。OOP把物件作為程式的基本單元，一個物件包含了資料和操作資料的函式。

Python爬蟲技術--基礎篇--面向物件高階程式設計（上）

1.使用__slots__ 正常情況下，當我們定義了一個class，建立了一個class的例項後，我們可以給該例項繫結任何屬性和方法，這就是動態語言的靈活性。先定義class：

Python爬蟲技術--基礎篇--面向物件高階程式設計（中）

1.多重繼承繼承是面向物件程式設計的一個重要的方式，因為通過繼承，子類就可以擴充套件父類的功能。

Python爬蟲技術--基礎篇--錯誤，除錯和測試（上）

1.錯誤處理在程式執行的過程中，如果發生了錯誤，可以事先約定返回一個錯誤程式碼，這樣，就可以知道是否有錯，以及出錯的原因。在作業系統提供的呼叫中，返回錯誤碼非常常見。比如開啟檔案的函式open()，成功時返回

Python爬蟲技術--基礎篇--錯誤，除錯和測試（下）

1.單元測試如果你聽說過“測試驅動開發”（TDD：Test-Driven Development），單元測試就不陌生。

Python爬蟲技術--基礎篇--圖形介面

1.概述 Python支援多種圖形介面的第三方庫，包括： Tk wxWidgets Qt GTK 等等。但是Python自帶的庫是支援Tk的Tkinter，使用Tkinter，無需安裝任何包，就可以直接使用。本章簡單介紹如何使用Tkinter進行GU

Python爬蟲技術--基礎篇--網路程式設計

1.TCP/IP簡介雖然大家現在對網際網路很熟悉，但是計算機網路的出現比網際網路要早很多。

Python爬蟲技術--基礎篇--內建模組XML和HTMLParser

DOM vs SAX

小結

小結

相關推薦