python爬蟲模塊之HTML解析模塊
阿新 • • 發佈:2018-06-13
str 修改 ini lxml 轉換 def imp dom對象 list
這個就比較簡單了沒有什麽好強調的,如果返回的json 就是直接按照鍵值取,如果是網頁就是用lxml模塊的html進行xpath解析。
from lxml import html import json class GetNodeList(): def __init__(self): self.getdivxpath="//div[@class=‘demo‘]" def use_xpath(self,source): if len(source): root=html.fromstring(source) #html轉換成dom對象 nodelist=root.xpath(self.getdivxpath)#對dom對象進行xpath解析 if len(nodelist): return nodelist return None def use_json(self, source,keyname): if len(source): jsonstr=json.loads(source) value=jsonstr.get(keyname) #根據具體的鍵值修改 if len(value): return value return None
python爬蟲模塊之HTML解析模塊