1. 程式人生 > 其它 >python爬蟲xpath

python爬蟲xpath

xpath解析:最常用且最便捷高效的一種解析方式。通用性。

  —— xpath解析原理:

    —— 1.例項化一個etree的物件,且需要將被解析的頁面原始碼資料記載到該物件中

    —— 2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲。

  —— 環境的安裝:

    —— pip install lxml

  —— 如何例項化一個etree物件: from lxml import etree

    —— 1.將本地的html文件中的原始碼資料載入到etree物件中:

      etree,parse(filePath)

    —— 2.可以將從網際網路上獲取的原始碼資料載入到該物件中

      etree.HTML('page_text')

  —— xpath表示式:

    —— /:表示的是從根節點上開始定位,表示的是一個層級

    —— //:表示的是多個層級。可以表示從任意位置開始定位

    —— 屬性定位://div[@class='song'] tag[@attrName="attrValue"]

    —— 索引定位://div[@class="song"]/p[3]  索引從1開始

    —— 取文字:

      —— /text()  獲取的是標籤中直系的文字內容

      —— //text()  標籤中非直系的文字內容(所有的文字內容)

    —— 取屬性:

      /@attrName