xpath選擇器使用

阿新 • • 發佈：2021-06-15

# xpath教程
# https://www.w3school.com.cn/xpath/index.asp
    

# xpath: XPath 是一門在 XML 文件中查詢資訊的語言
# / :從根節點選取。
# // :不管位置，直接找
# /@屬性名
# /text()
# 會複製（）

doc='''
<html>
 <head>
  <base href='http://example.com/' />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html' aa='bb'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
   <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a>
  </div>
 </body>
</html>
 
'''
from lxml import etree

html=etree.HTML(doc)
# html=etree.parse('search.html',etree.HTMLParser())
# 1 所有節點
# a=html.xpath('//*')

# 2 指定節點（結果為列表）
# a=html.xpath('//head')

# 3 子節點，子孫節點
# a=html.xpath('//div/a')
# a=html.xpath('//body/a') #無資料
# a=html.xpath('//body//a')


# 4 父節點
# a=html.xpath('//body//a[@href="image1.html"]/..') 

# a=html.xpath('//body//a[1]/..')
# 也可以這樣
# a=html.xpath('//body//a[1]/parent::*')



# 5 屬性匹配
# a=html.xpath('//body//a[@href="image1.html"]')

# 6 文字獲取(重要)  /text() 取當前標籤的文字
# a=html.xpath('//body//a[@href="image1.html"]/text()')
# a=html.xpath('//body//a/text()')

# 7 屬性獲取  @href 取當前標籤的屬性
# a=html.xpath('//body//a/@href')

# 
 # 注意從1 開始取（不是從0）
# a=html.xpath('//body//a[1]/@href')
# 8 屬性多值匹配
#  a 標籤有多個class類，直接匹配就不可以了，需要用contains
# a=html.xpath('//body//a[@class="li"]')
# a=html.xpath('//body//a[contains(@class,"li")]')
# a=html.xpath('//body//a[contains(@class,"li")]/text()')
# 9 多屬性匹配
# a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')
# a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')
# a=html.xpath('//body//a[contains(@class,"li")]/text()')
# 10 按序選擇
# a=html.xpath('//a[2]/text()')
# a=html.xpath('//a[2]/@href')
# 取最後一個
# a=html.xpath('//a[last()]/@href')
# 位置小於3的
# a=html.xpath('//a[position()<3]/@href')
# 倒數第二個
# a=html.xpath('//a[last()-2]/@href')
# 11 節點軸選擇
# ancestor：祖先節點
# 使用了* 獲取所有祖先節點
# a=html.xpath('//a/ancestor::*')
# # 獲取祖先節點中的div
# a=html.xpath('//a/ancestor::div')
# attribute：屬性值
# a=html.xpath('//a[1]/attribute::*')
# a=html.xpath('//a[1]/@aa')
# child：直接子節點
# a=html.xpath('//a[1]/child::*')
# a=html.xpath('//a[1]/child::img/@src')
# descendant：所有子孫節點
# a=html.xpath('//a[6]/descendant::*')
# a=html.xpath('//a[6]/descendant::h5/text()')
# following:當前節點之後所有節點(兄弟節點和兄弟內部的節點)
# a=html.xpath('//a[1]/following::*')
# a=html.xpath('//a[1]/following::*[1]/@href')
# following-sibling:當前節點之後同級節點（只找兄弟）
# a=html.xpath('//a[1]/following-sibling::*')
# a=html.xpath('//a[1]/following-sibling::a')
# a=html.xpath('//a[1]/following-sibling::*[2]')
# a=html.xpath('//a[1]/following-sibling::*[2]/@href')


print(a)


# /
# //
# /@屬性名
# /text()

//以後去查詢標籤，bs4的find，     css，xpath（通用的）

Python利用Xpath選擇器爬取京東網商品資訊

HTML檔案其實就是由一組尖括號構成的標籤組織起來的，每一對尖括號形式一個標籤，標籤之間存在上下關係，形成標籤樹；XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

爬蟲之xpath選擇器的使用

XPath簡介 XPath 是一門在 XML 文件中查詢資訊的語言。 # xpath: XPath 是一門在 XML 文件中查詢資訊的語言

xpath選擇器的使用

xpath簡介 xpath是一門可以在xml文件中查詢資訊的語言 /: 從根節點選取 //: 不管位置，直接找

爬蟲——css選擇器和 xpath選擇器

css選擇器 ret=soup.select(\'#my_p\') ret=soup.select(\'body p\')# 子子孫孫 ret=soup.select(\'body>p\')# 直接子節點（兒子）

基於xpath選擇器、PyQuery、正則表示式的格式清理工具詳解

1，使用xpath清理不必要的標籤元素，以及無內容標籤 from lxml import etree def xpath_clean(self,text: str,xpath_dict: dict) -> str:

在Scrapy中如何利用Xpath選擇器從網頁中採集目標資料——詳細教程（上篇）

點選上方“Python爬蟲與資料探勘”，進行關注回覆“書籍”即可獲贈Python從入門到進階共10本電子書

xpath選擇器的使用，selenium使用

一、xpath選擇器使用 # xpath: XPath 是一門在 XML 文件中查詢資訊的語言 # / :從根節點選取。

xpath選擇器使用

# xpath教程 # https://www.w3school.com.cn/xpath/index.asp # xpath: XPath 是一門在 XML 文件中查詢資訊的語言

xml_解析_Jsoup_根據選擇器查詢以及根據Xpath查詢

xml_解析_Jsoup_根據選擇器查詢快捷查詢方式：　　selector：選擇器　　　　使用的方法：Element： select（String cssQuery）

xml_解析_Jsoup_根據選擇器查詢與xml_解析_Jsoup_根據Xpath查詢

xml_解析_Jsoup_根據選擇器查詢　　快捷查詢方式：　　　　　　1. selector:選擇器　　　　　　　　使用的方法：Elements select(String cssQuery)　　　　　　　　　　　語法：參考Selector類中定義的語法

xml解析_Jsoup根據選擇器查詢和xml解析_Jsoup根據Xpath查詢

xml解析_Jsoup根據選擇器查詢：快捷查詢方式：　selector：選擇器　　　使用的方法：Element： select（String cssQuery）

CSS 選擇器大全解

CSS 選擇器規定了CSS規則會被應用到哪些元素上寫在前面本文使用一個統一的HTML案例，並通過使用不同的選擇器例子來測試究竟哪些元素被添加了樣式（主要是寬度為1px的邊框），對應的HTML程式碼如下，為了方便你

Android自定義酒店日期選擇器

Android自定義日期區間選擇器，類似於途家等酒店、旅遊日期區間選擇器：重寫PopupWindow

Android使用第三方庫實現日期選擇器

本文主要是介紹利用第三方庫實現底部日期選擇器滾輪效果，類似IOS日期效果，只記錄了一種展示效果，是專案中常用到的，至於用到其他效果以及自定義擴充套件的可以參考原文自行學習。

jQuery 選擇器用法基礎入門示例

本文例項講述了jQuery 選擇器用法。分享給大家供大家參考，具體如下：今兒個開始學習jQuery，在學習jQuery之前我們應該掌握js，我之前也寫過幾篇筆記，但是隻是小部分的知識，js也不是很難可以自己簡單的看看。以後

jquery選擇器和屬性物件的操作例項分析

本文例項講述了jquery選擇器和屬性物件的操作。分享給大家供大家參考，具體如下：

微信小程式如何實現精確的日期時間選擇器

這篇文章主要介紹了微信小程式如何實現精確的日期時間選擇器,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

iOS自定義日期選擇器

前言封裝了一個日期選擇器，解決兩個問題： 1、點選textField，鍵盤彈出和日期選擇器彈出的邏輯處理；

基於Element的元件改造的樹形選擇器(樹形下拉框)

前言：由於做專案需要一個樹形選擇器，專案用的也是element-ui框架，然而它自帶的選擇器元件沒有樹形選項，又不想引入其他的框架元件，於是自己利用el-select和el-tree改造了一個，感覺還挺好用的，就封裝成了一個元

使用Vue 自定義檔案選擇器元件的例項程式碼

本文 GitHub https://github.com/qq44924588... 上已經收錄，更多往期高贊文章的分類，也整理了很多我的文件，和教程資料。歡迎Star和完善，大家面試可以參照考點複習，希望我們一起有點東西。

xpath選擇器使用

相關推薦