Xpath高階用法

阿新 • • 發佈：2018-11-19

xpath速度比較快，是爬蟲在網頁定位中的較優選擇，但是很多網頁前端程式碼混亂難以定位，而學習定位也較為不易（主要是全面的教程較少），這裡列出一點程式設計過程中可能有用的東西，歡迎共同學習批評指正。
試驗環境：Python環境，lxml.etree

試驗所使用的html程式碼

<!DOCTYPE html>
<html>
<head>
    <title>xpath test</title>
</head>
<body>
<div price="99.8">
    <div>
        <ul>
            <li>時間</li>
            <li>地點</li>
            <li>任務</li>
        </ul>
    </div>
    <div id='testid' data-h="first">
        <h2>這裡是個小標題</h2>
        <ol>
            <li data="one">1</li>
            <li data="two">2</li>
            <li data="three">3</li>
        </ol>
        <ul>
            <li code="84">84</li>
            <li code="104">104</li>
            <li code="223">223</li>
        </ul>
    </div>
    <div>
        <h3>這裡是H3的內容
            <a href="http://www.baidu.com">百度一下</a>
            <ul>
                <li>test1</li>
                <li>test2</li>
            </ul>
        </h3>
    </div>
    <div id="go">
        <ul>
            <li>1</li>
            <li>2</li>
            <li>3</li>
            <li>4</li>
            <li>5</li>
            <li>6</li>
            <li>7</li>
            <li>8</li>
            <li>9</li>
            <li>10</li>
        </ul>
    </div>
</div>
</body>
</html>

1、匹配某節點下的所有.//

//獲取文件中所有匹配的節點，.獲取當前節點，有的時候我們需要獲取當前節點下的所有節點，.//一定要結合.使用//，否則都會獲取整個文件的匹配結果.

2、匹配包含某屬性的所有的屬性值//@lang

```
print tree.xpath('//@code') #匹配所有帶有code屬性的屬性值
>>['84', '104', '223']
```
3、選取若干路徑|

這個符號用於在一個xpath中寫多個表示式用，用|分開，每個表示式互不干擾

print tree.xpath('//div[@id="testid"]/h2/text() | //li[@data]/text()') #多個匹配條件
>>[u'\u8fd9\u91cc\u662f\u4e2a\u5c0f\u6807\u9898', '1', '2', '3']

4、 Axes（軸）

child：選取當前節點的所有子元素

>>print tree.xpath('//div[@id="testid"]/child::ul/li/text()') #child子節點定位
>>['84', '104', '223']

>>print tree.xpath('//div[@id="testid"]/child::*') #child::*當前節點的所有子元素
>>[<Element h2 at 0x21bd148>, <Element ol at 0x21bd108>, <Element ul at 0x21bd0c8>]

>>#定位某節點下為ol的子節點下的所有節點
>>print tree.xpath('//div[@id="testid"]/child::ol/child::*/text()') 
>>['1', '2', '3']

attribute：選取當前節點的所有屬性

>>print tree.xpath('//div/attribute::id') #attribute定位id屬性值
>>['testid', 'go']

>>print tree.xpath('//div[@id="testid"]/attribute::*') #定位當前節點的所有屬性
>>['testid', 'first']

descendant：後代 / descendant-or-self：後代及當前節點本身
following :選取文件中當前節點的結束標籤之後的所有節點
使用方法同上

#定位testid之後不包含id屬性的div標籤下所有的li中第一個li的text屬性
>>print tree.xpath('//div[@id="testid"]/following::div[not(@id)]/.//li[1]/text()') 
>>['test1']

namespace：選取當前節點的所有名稱空間節點

>>print tree.xpath('//div[@id="testid"]/namespace::*') #選取名稱空間節點
>>[('xml', 'http://www.w3.org/XML/1998/namespace')]

parent：選取當前節點的父節點

>>#選取data值為one的父節點的子節點中最後一個節點的值
>>print tree.xpath('//li[@data="one"]/parent::ol/li[last()]/text()') 
>>['3']
>>#注意這裡的用法，parent::父節點的名字

preceding：選取文件中當前節點的開始標籤之前的所有節點

>>#記住是標籤開始之前，同級前節點及其子節點
>>print tree.xpath('//div[@id="testid"]/preceding::div/ul/li[1]/text()')[0] 
>>時間
>>#下面這兩條可以看到其順序是靠近testid節點的優先
>>print tree.xpath('//div[@id="testid"]/preceding::li[1]/text()')[0]
>>print tree.xpath('//div[@id="testid"]/preceding::li[3]/text()')[0]
>>任務
>>時間

preceding-sibling：選取當前節點之前的所有同級節點

>>#記住只能是同級節點
>>print tree.xpath('//div[@id="testid"]/preceding-sibling::div/ul/li[2]/text()')[0]
>>print tree.xpath('//div[@id="testid"]/preceding-sibling::li') #這裡返回的就是空的了
>>地點
>>[]

self：選取當前節點

>>#選取帶id屬性值的div中包含data-h屬性的標籤的所有屬性值
>>print tree.xpath('//div[@id]/self::div[@data-h]/attribute::*') 
>>['testid', 'first']

組合拳

#定位id值為testid下的ol下的li屬性值data為two的父元素ol的兄弟前節點h2的text值
>>print tree.xpath('//*[@id="testid"]/ol/li[@data="two"]/parent::ol/preceding-sibling::h2/text()')[0] 
>>這裡是個小標題

5、position定位

>>print tree.xpath('//*[@id="testid"]/ol/li[position()=2]/text()')[0] 
>>2

6、條件

>>定位所有h2標籤中text值為`這裡是個小標題`
>>print tree.xpath(u'//h2[text()="這裡是個小標題"]/text()')[0]
>>這裡是個小標題

7、函式

count：統計

>>print tree.xpath('count(//li[@data])') #節點統計
>>3.0

concat：字串連線

>>print tree.xpath('concat(//li[@data="one"]/text(),//li[@data="three"]/text())')
>>13

string：解析當前節點下的字元

>>#string只能解析匹配到的第一個節點下的值，也就是作用於list時只匹配第一個
>>print tree.xpath('string(//li)') 
>>時間

local-name：解析節點名稱

>>print tree.xpath('local-name(//*[@id="testid"])') #local-name解析節點名稱
>>div

contains(string1,string2)：如果 string1 包含 string2，則返回 true，否則返回 false

>>tree.xpath('//h3[contains(text(),"H3")]/a/text()')[0] #使用字元內容來輔助定位
>>百度一下

>>一記組合拳
>>#匹配帶有href屬性的a標籤的先輩節點中的div，其兄弟節點中前一個div節點下ul下li中text屬性包含“務”字的節點的值
>>print tree.xpath(u'//a[@href]/ancestor::div/preceding::div/ul/li[contains(text(),"務")]/text()')[0] 
>>任務

not：布林值（否）

>>print tree.xpath('count(//li[not(@data)])') #不包含data屬性的li標籤統計
>>18.0

string-length：返回指定字串的長度

>>#string-length函式+local-name函式定位節點名長度小於2的元素
>>print tree.xpath('//*[string-length(local-name())<2]/text()')[0] 
>>百度一下

組合拳2

>>#contains函式+local-name函式定位節點名包含di的元素
>>print tree.xpath('//div[@id="testid"]/following::div[contains(local-name(),"di")]') 
>>[<Element div at 0x225e108>, <Element div at 0x225e0c8>]

or：多條件匹配

>>print tree.xpath('//li[@data="one" or @code="84"]/text()') #or匹配多個條件
>>['1', '84']
>>#也可使用|
>>print tree.xpath('//li[@data="one"]/text() | //li[@code="84"]/text()') #|匹配多個條件
>>['1', '84']

組合拳3：floor + div除法 + ceiling

>>#position定位+last+div除法，選取中間兩個
>>tree.xpath('//div[@id="go"]/ul/li[position()=floor(last() div 2+0.5) or position()=ceiling(last() div 2+0.5)]/text()') 
>>['5', '6']

組合拳4隔行定位：position+mod取餘

>>#position+取餘運算隔行定位
>>tree.xpath('//div[@id="go"]/ul/li[position()=((position() mod 2)=0)]/text()')

starts-with：以。。開始

>>#starts-with定位屬性值以8開頭的li元素
>>print tree.xpath('//li[starts-with(@code,"8")]/text()')[0]
>>84

8、數值比較

<：小於

>>#所有li的code屬性小於200的節點
>>print tree.xpath('//li[@code<200]/text()')
>>['84', '104']

div：對某兩個節點的屬性值做除法

>>print tree.xpath('//div[@id="testid"]/ul/li[3]/@code div //div[@id="testid"]/ul/li[1]/@code')
>>2.65476190476

組合拳4：根據節點下的某一節點數量定位

>>#選取所有ul下li節點數大於5的ul節點
>>print tree.xpath('//ul[count(li)>5]/li/text()')
>>['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']

9、將物件還原為字串

>>> s = tree.xpath('//*[@id="testid"]')[0] #使用xpath定位一個節點
>>> s
<Element div at 0x2b6ffc8>
>>> s2 = etree.tostring(s) #還原這個物件為html字串
>>> s2
'<div id="testid">\n\t\t<h2>&#213;&#226;&#192;&#239;&#202;&#199;&#184;&#246;&#208;&#161;&#177;&#234;&#204;&#226;</h2>\n\t\t<ol>\n\t\t\t<li data="one">1</li>\n\t\t\t<li data="two">2</li>\n\t\t\t<li data="three">3</li>\n\t\t</ol>\n\t\t<ul>\n\t\t\t<li code="84">84</li>\n\t\t\t<li code="104">104</li>\n\t\t\t<li code="223">223</li>\n\t\t</ul>\n\t</div>\n\t'

10、選取一個屬性中的多個值

舉例：<div class="mp-city-list-container mp-privince-city" mp-role="provinceCityList">
選擇這個div的方案網上有說用and的，但是似乎只能針對不同的屬性的單個值
本次使用contains
>>.xpath('div[contains(@class,"mp-city-list-container mp-privince-city")]')
>>當然也可以直接選取其屬性的第二個值
>>.xpath('div[contains(@class,"mp-privince-city")]')
>>重點是class需要新增一個@符號
本次驗證否定了網上的and，使用了contains,驗證環境在scrapy的response.xpath下

以上就是目前我整理出的全部內容，說明一點，xpath雖快，但是使用時儘量使用簡潔高效的方式，本文旨在定位那些較難的地方使用，刻意追求晦澀難懂的技巧會影響其效率，並不可取。

Xpath高階用法

xpath速度比較快，是爬蟲在網頁定位中的較優選擇，但是很多網頁前端程式碼混亂難以定位，而學習定位也較為不易（主要是全面的教程較少），這裡列出一點程式設計過程中可能有用的東西，歡迎共同學習批評指正。試驗環境：Python環境，lxml.etree 試驗

第六篇 xpath的用法

com F12 信息 -1 時間每次 pos project ole 使用pycharm debug調試效率會比較慢，因為每次調試都需要向url發送請求，等返回信息,scrapy提供一種方便調試的功能，如下： >>>(third_projec

03、xpath的用法

xpath 分享圖片 xpath語法 src bubuko width 用法 image path 1、xpath語法 03、xpath的用法

iOS webView的高階用法之JS互動

前言：說起JS互動，很多童鞋會黯然色變，感覺很高深的樣子。大部分小夥伴只知道一種，哪一種我也說說吧。 1.在webView中將要請求的時候，攔截URL，進行重定向，然而該場景實用有限，網上資料也很多下面說說另一種互動方式。 - (BOOL)webView:(UIWe

python sorted函式高階用法

1、入門 a = [20, 5, 6, 7, 8, 1] res1 = sorted(a) # 正序排序 res2 = sorted(a, reverse=True) # 逆序排序 res3 = sorted(a, key=lambda item: -item) # 逆序排序 pr

Flask高階應用06---模型的CRUD和高階用法

一、資料對映（資料庫crud基礎操作）注意:在遷移前首先要開啟資料庫mysql 1.建立模型==create_all（）對建立的模型資料進行遷移，這個方法只能用於首次建立，後面遷移需要用migrate（不建議用），建議用sql語句，orm實現的資料庫遷移不是最有方式 @b

嵌入式C的高階用法必須瞭解

學習嵌入式，c是必須要知道熟練的，可以說不止嵌入式的學習需要用到c，只要是關於計算機的都會用到c，c是計算機學習最為基礎的一門，c也是要經過初級到高階的，今天就來讓你詳細的瞭解一下嵌入式c的高階用法。這些都是工作學習中必備的技巧，希望對你有所幫助。 1、記憶體管理我們需要知道——變數，其實

#define巨集的高階用法

參考：https://blog.csdn.net/xiahouzuoxin/article/details/9494503 一、巨集的定義與撤銷 #普通巨集定義 #define PI 3.14 //編譯階段替換掉巨集 #define T1 3+4 //容易產生歧義 #defi

Android列表用法之二：實戰ListView高階用法

在我們的專案中，並不是所有列表都是簡單的使用。類似於新聞列表、QQ聊天列表等，具有圖文並排的列表，每個item都有它不同的佈局型別，都有其不同的實現方式。這類複雜的列表表現形式，在各類知名應用當中，不可或缺的存在著。今天我們就來看看，使用ListView能不能實現此類複雜佈局。今天的例

Charles高階用法

一、網速模擬點選選單“Proxy→ Throtte Setting”開啟網速模擬配置視窗。

問題: 檢視某個檔案的修改記錄| git log 高階用法

參考文章: git檢視某個檔案的修改歷史 5.3 Git log 高階用法基本步驟 git log --pretty=oneline [檔名] git show [節點] git log 兩週高階用法結合在一起就能找到想要的自定義提交的

android動畫三·ValueAnimator和ObjectAnimator的高階用法

內容動畫 ValueAnimator的高階用法假如：我們有一個自定義的View，在這個View當中有一個Point物件用於管理座標，然後在onDraw()方法當中就是根據這個Point物件的座標值來進行繪製的。如果可以對Point物件進行動畫操作，那麼整個自定義

Vue —— 父子通訊高階用法

async 父元件使用 :syncVal.sync="val" <template> <section class="parent"> <son :syncVal.sync="val"></son> </sectio

C# JSON格式資料高階用法

JSON簡介 JSON(全稱為JavaScript ObjectNotation) 是一種輕量級的資料交換格式。它是基於JavaScript語法標準的一個子集。JSON採用完全獨立於語言的文字格式，可以很容易在各種網路、平臺和程式之間傳輸。JSON的語法很簡單，易於人閱讀和編寫，同時也易於機器解

Python語法基礎|高階用法|高階特性：匿名函式lambda

定義一個普通函式，起碼需要def關鍵字+函式名+函式體。而lambda可定義一個匿名函式。 >>> add = lambda x,y:x+y >>> type(add) <type 'function'> lambd

Django表單集合Formset的高階用法

Formset(表單集)是多個表單的集合。Formset在Web開發中應用很普遍，它可以讓使用者在同一個頁面上提交多張表單，一鍵新增多個數據，比如一個頁面上新增多個使用者資訊。今天小編我就介紹下Django Formset的基礎知識，Formset的分類以及如何使用Formset。 &n

MYSQL資料庫高階用法

文章目錄檢視什麼是檢視檢視檢視使用檢視刪除檢視事務什麼是事務事務的四大特性ACID 原子性(Atomicity) 一致性(Consistency)

深入理解Vue router的部分高階用法

今天要介紹的是路由元資訊，滾動行為以及路由懶載入這幾個的使用方法。 1.路由元資訊什麼是路由元資訊，看看官網的解釋，定義路由的時候可以配置 meta 欄位可以匹配meta欄位，那麼我們該如何使用它，一個簡單的例子，改變瀏覽器title的值。下面上程式碼。 //簡單的我就不寫了直

Python3基礎-高階用法

寫在前面：本文主要是python高階練習部分，介紹了一些高階用法，這些都是零散的小知識，這些可以與函數語言程式設計合在一起使用。函數語言程式設計1：Python中提供的函數語言程式設計主要有： map(函式，可迭代式)對映函式 filter(函式，可迭代式)過濾函式 reduce(函式，可

vue 元件高階用法例項詳解

　　一、遞迴元件　　　　元件在它的模板內可以遞迴地呼叫自己，只要給元件設定name 的選項就可以了。　　　　示例如下：　　　　<div id="app19">　　　　<my-component19 :count="1"></my-component19>　　　　</

Xpath高階用法

相關推薦