python xpath 獲取指定頁面中指定區域的html代碼
阿新 • • 發佈:2018-10-12
pytho sts clas xpath nbsp install .get element XML
最近一個朋友問我怎麽把一個指定區域的內容轉成pdf,網上查了一下python裏面有個wkhtmltopdf模塊可以將str、file、url轉成pdf,我們今天不聊怎麽轉PDF,聊聊怎麽獲取頁面中指定區域的html源碼。用到的模塊是lxml和requests這兩個模塊,沒有裝的小夥伴可以裝一下 pip install lxml requests
主要思想是利用xpath獲取到指定區域的Element對象,然後再將Element對象傳給etree.tostring(),即可得到指定區域的html代碼,看一下需求:
1、我們要得到 http://www.w3school.com.cn/ w3c首頁中的這個位置的html代碼:
看一下頁面源碼是這樣的
2、下面開始編碼:
1 from lxml import etree 2 import requests 3 4 res=requests.get(‘http://www.w3school.com.cn/‘) 5 tree=etree.HTML(res.content) 6 div=tree.xpath(‘//div[@id="d1"]‘)[0] 7 div_str=etree.tostring(div,encoding=‘utf-8‘) 8 print div_str
3、結果如下:
4、成功獲取到了指定區域的html代碼。
python xpath 獲取指定頁面中指定區域的html代碼