1. 程式人生 > >python xpath 獲取指定頁面中指定區域的html代碼

python xpath 獲取指定頁面中指定區域的html代碼

pytho sts clas xpath nbsp install .get element XML

  最近一個朋友問我怎麽把一個指定區域的內容轉成pdf,網上查了一下python裏面有個wkhtmltopdf模塊可以將str、file、url轉成pdf,我們今天不聊怎麽轉PDF,聊聊怎麽獲取頁面中指定區域的html源碼。用到的模塊是lxml和requests這兩個模塊,沒有裝的小夥伴可以裝一下 pip install lxml requests

主要思想是利用xpath獲取到指定區域的Element對象,然後再將Element對象傳給etree.tostring(),即可得到指定區域的html代碼,看一下需求:

    1、我們要得到 http://www.w3school.com.cn/ w3c首頁中的這個位置的html代碼:

      技術分享圖片

      看一下頁面源碼是這樣的

         技術分享圖片

   2、下面開始編碼:     

1 from lxml import etree
2 import requests
3 
4 res=requests.get(http://www.w3school.com.cn/)
5 tree=etree.HTML(res.content)
6 div=tree.xpath(//div[@id="d1"])[0]
7 div_str=etree.tostring(div,encoding=utf-8)
8 print div_str

3、結果如下:

    技術分享圖片

4、成功獲取到了指定區域的html代碼。

  

python xpath 獲取指定頁面中指定區域的html代碼