XPath在python中的高階應用

阿新 • • 發佈：2019-02-04

XPath在python的爬蟲學習中，起著舉足輕重的地位，對比正則表示式 re兩者可以完成同樣的工作，實現的功能也差不多，但XPath明顯比re具有優勢，在網頁分析上使re退居二線。

XPath介紹：
是什麼？全稱為XML Path Language 一種小型的查詢語言
說道XPath是門語言，不得不說它所具備的優點：
1）可在XML中查詢資訊
2）支援HTML的查詢
3）通過元素和屬性進行導航

python開發使用XPath條件：
由於XPath屬於lxml庫模組，所以首先要安裝庫lxml，具體的安裝過程可以檢視部落格，包括easy_install 和 pip 的安裝方法。

XPath的簡單呼叫方法：

from lxml import etree
selector=etree.HTML(原始碼)  #將原始碼轉化為能被XPath匹配的格式
selector.xpath(表示式)  #返回為一列表

XPath的使用方法：
首先講一下XPath的基本語法知識：
四種標籤的使用方法
1) // 雙斜槓定位根節點，會對全文進行掃描，在文件中選取所有符合條件的內容，以列表的形式返回。
2) / 單斜槓尋找當前標籤路徑的下一層路徑標籤或者對當前路標籤內容進行操作
3) /text() 獲取當前路徑下的文字內容
4) /@xxxx 提取當前路徑下標籤的屬性值
5) |

可選符使用|可選取若干個路徑如//p | //div 即在當前路徑下選取所有符合條件的p標籤和div標籤。
6) . 點用來選取當前節點
7) .. 雙點選取當前節點的父節點
另外還有starts-with(@屬性名稱,屬性字元相同部分)，string(.)兩種重要的特殊方法後面將重點講。

利用例項講解XPath的使用：

from lxml import etree
html="""
    <!DOCTYPE html>
    <html>
        <head lang="en">
        <title> 
測試</title>
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
        </head>
        <body>
            <div id="content">
                <ul id="ul">
                    <li>NO.1</li>
                    <li>NO.2</li>
                    <li>NO.3</li>
                </ul>
                <ul id="ul2">
                    <li>one</li>
                    <li>two</li>
                </ul>
            </div>
            <div id="url">
                <a href="http:www.58.com" title="58">58</a>
                <a href="http:www.csdn.net" title="CSDN">CSDN</a>
            </div>
        </body>
    </html>
"""
selector=etree.HTML(html)
content=selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()') #這裡使用id屬性來定位哪個div和ul被匹配 使用text()獲取文字內容
for i in content:
    print i
#輸出為
NO.1
NO.2
NO.3

con=selector.xpath('//a/@href') #這裡使用//從全文中定位符合條件的a標籤，使用“@標籤屬性”獲取a便籤的href屬性值
for each in con:
    print each
#輸出結果為：
http:www.58.com
http:www.csdn.net

con=selector.xpath('/html/body/div/a/@title') #使用絕對路徑定位a標籤的title
con=selector.xpath('//a/@title') #使用相對路徑定位 兩者效果是一樣的
print len(con)
print con[0]con[1]

#輸出結果為：
2
58 CSDN

介紹XPath的特殊用法：
1) starts-with 解決標籤屬性值以相同字串開頭的情況

舉例說明

from lxml import etree
html="""
    <body>
        <div id="aa">aa</div>
        <div id="ab">ab</div>
        <div id="ac">ac</div>
    </body>
    """
selector=etree.HTML(html)
content=selector.xpath('//div[starts-with(@id,"a")]/text()') #這裡使用starts-with方法提取div的id標籤屬性值開頭為a的div標籤
for each in content:
    print each
#輸出結果為：
aa
ab
ac

2） string(.) 標籤套標籤

html="""
    <div id="a">
    left
        <span id="b">
        right
            <ul>
            up
                <li>down</li>
            </ul>
        east
        </span>
        west
    </div>
"""
#下面是沒有用string方法的輸出
sel=etree.HTML(html)
con=sel.xpath('//div[@id="a"]/text()')
for i in con:
    print i   #輸出內容為left west

data=sel.xpath('//div[@id="a"]')[0]
info=data.xpath('string(.)')
content=info.replace('\n','').replace(' ','')
for i in content:
    print i #輸出為 全部內容

XPath提供的幾個特殊的方法：
XPath中需要取的標籤如果沒有屬性，可以使用text()，posision()來識別標籤。

舉兩個簡單的例子：

from lxml import etree
html="""
    <div>hello
        <p>H</p>
</div>
<div>hehe</div>
"""
sel=etree.HTML(html)
con=sel.xpath('//div[text()="hello"]/p/text()')
print con[0]
#H

這裡使用text()的方法來判別是哪個div標籤

from lxml import etree
html="""
    <div>hello
        <p>H</p>
        <p>J</p>
        <p>I</p>
</div>
<div>hehe</div>
"""
sel=etree.HTML(html)
con=sel.xpath('//div[text()="hello"]/p[posision()=2]/text()')
print con[0]
#J

另外，在XPath中可以使用多重過濾方法尋找標籤，例如ul[3][@id=”a”] 這裡使用【3】來尋找第三個ul標籤並且它的id屬性值為a

獲取XPath的方式有兩種：
1）使用以上等等的方法通過觀察找規律的方式來獲取XPath
2）使用Chrome瀏覽器來獲取在網頁中右擊->選擇審查元素（或者使用F12開啟）就可以在elements中檢視網頁的html標籤了，找到你想要獲取XPath的標籤，右擊->Copy XPath 就已經將XPath路徑複製到了剪下板。

就總結了這麼多，以後再有學習會定期補充。

XPath在python中的高階應用

for迴圈再pandas中高階應用

安卓開發中高階元件之選項卡的應用

dubbo在項目中的應用

詳細解剖大型H5單頁面應用的核心技術點

Linux雙網卡搭建NAT服務器之網絡應用

【iOS越獄開發】怎樣將應用打包成.ipa文件

Django 應用開發（3）

MVC模式在Java Web應用程序中的實例分析

什麽是linux，linux的應用與發展

getfacl權限記錄應用

SAS學習筆記之函數應用

Nlpir Parser敏感詞搜索靈玖語義技術應用

linux應用之vim的安裝與配置（centos）

與正則有關的JS方法結合其在項目中的應用

MVC設計模式在網站中的應用

MVC實例應用模式

MVC模式在Java Web應用程序中的實例

Java設計模式應用——責任鏈模式

關於Android應用程序漏洞的防護措施

[Java.web]Web應用結構

XPath在python中的高階應用

相關推薦