1. 程式人生 > >爬蟲:資訊提取的一般方法

爬蟲:資訊提取的一般方法

資訊提取的一般方法

方法一:完整解析資訊的標記形式,再提取關鍵資訊。

XML JSON YAML

需要標記解析器 例如:bs4庫的標籤樹遍歷

優點:資訊解析準確

缺點:提取過程繁瑣,速度慢

 

方法二:無視標記形式,直接搜尋關鍵資訊。

搜尋

對資訊的文字查詢函式即可

優點:提取過程簡潔,速度快

缺點:提取結果準確性與資訊內容相關

 

融合方法

融合方法:結合形式解析與搜尋方法,提取關鍵資訊。

XML JSON YAML 搜尋

需要標記解析器及文字查詢函式。

 

例項

提取HTML中所有URL連結

思路:1)搜尋到所有<a>標籤

            2)解析<a>標籤格式,提取href後的連結內容。

>>> from bs4 import BeautifulSoup
>>> import requests
>>> r=requests.get("https://www.baidu.com/?tn=98012088_5_dg&ch=12")
>>> demo=r.text
>>> soup=BeautifulSoup(demo,"html.parser")
>>> for link in soup.find_all('a'):
	print(link.get('href'))