python爬蟲xpath
阿新 • • 發佈:2021-11-13
xpath解析:最常用且最便捷高效的一種解析方式。通用性。
—— xpath解析原理:
—— 1.例項化一個etree的物件,且需要將被解析的頁面原始碼資料記載到該物件中
—— 2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲。
—— 環境的安裝:
—— pip install lxml
—— 如何例項化一個etree物件: from lxml import etree
—— 1.將本地的html文件中的原始碼資料載入到etree物件中:
etree,parse(filePath)
—— 2.可以將從網際網路上獲取的原始碼資料載入到該物件中
etree.HTML('page_text')
—— xpath表示式:
—— /:表示的是從根節點上開始定位,表示的是一個層級
—— //:表示的是多個層級。可以表示從任意位置開始定位
—— 屬性定位://div[@class='song'] tag[@attrName="attrValue"]
—— 索引定位://div[@class="song"]/p[3] 索引從1開始
—— 取文字:
—— /text() 獲取的是標籤中直系的文字內容
—— //text() 標籤中非直系的文字內容(所有的文字內容)
—— 取屬性:
/@attrName