爬蟲與Python：（三）基本庫的使用——6.XPath——XML中查詢資訊的語言

阿新 • • 發佈：2021-10-17

Path是一門在XML文件中查資訊的語言，XPath可用來XML文件中對元素和屬性進行遍歷。XPath是W3C XSLT 標準的主元素，並且XQuery和Xpointer都構建於XPath表達上。XPath在Python的爬蟲學習中，起著舉足輕重的作用，對比正則表示式re,兩者可以完成同樣的工作，實現功能頁類似，但XPath比re具有明顯的優勢。

XPath，全稱 XML Path Language，是一種小型語言查詢語言，有一下優點：

可在XML中查詢資訊。
支援HTML查詢
可通過元素和屬性進行導航。

Python開發使用XPath條件：由於XPath屬於lxml庫。Inc，需要先安裝lxml庫，安裝步驟請參考：

https://www.cnblogs.com/luyj00436/p/15415280.html 。

輸入安裝的pip命令為：

 pip install lxml

本文的主要內容包括：

XPaht的使用方法
利用示例講解XPath的使用
獲取所有節點
獲取子節點
獲取文字資訊

1. XPath的使用方法

下面介紹一下XPaht的基礎語法知識，常見的使用方法主要有以下幾種：

// (雙斜槓)：定位根節點，會對全文進行掃描，在文件中選取所有符合條件的內容，以列表的形式返回。
/(單斜杆) ：尋找當前標籤路徑的下一層路徑標籤或對當前路徑標籤內容進行操作。
/text() ：獲取當前路徑下的文字內容。
/@xxxx : 獲取當前路徑下標籤的屬性值。

|(可選符) ：使用“|”可選取若干路徑，如//p | div，即當前路徑下選取的所有符合條件的P標籤和div標籤。
.（點）：用來選取當前節點。
..(雙點)：選取當前節點的父節點。

2. 利用示例講解XPath的使用

以下是一段HTML程式碼：

1 <div>
2     <ul>
3         <li class="item-0"><a href="www.baidu.com"></a></li>
4         <li class="item-1"><a href="https://www.cnblogs.com/luyj00436" 
>myblog</a></li>
5         <li class="item-2"><a href="https://www.csdn.net/">csdn</a></li>
6         <li class="item-3"><a href="https://www.hao123.com/">hao123</a></li>

顯然，這段HTML程式碼沒有閉合，因此可以使用lxml中的etree模組進行補全，示例程式碼入如下：

 1 from lxml import etree
 2 
 3 text = '''
 4 <div>
 5     <ul>
 6         <li class="item-0"><a href="www.baidu.com"></a></li>
 7         <li class="item-1"><a href="https://www.cnblogs.com/luyj00436">myblog</a></li>
 8         <li class="item-2"><a href="https://www.csdn.net/">csdn</a></li>
 9         <li class="item-3"><a href="https://www.hao123.com/">hao123</a></li>
10         '''
11 html = etree.HTML(text)
12 result = etree.tostring(html)
13 print(result.decode("UTF-8"))

執行後控制檯會輸出：

可以看到，etree不僅閉合了節點，還添加了其他需要的標籤。除了直接讀取文字進行解析外，etree還可以讀取檔案進行解析，示例程式碼如下：

1 from lxml import etree
2 
3 html = etree.parse('./test.html',etree.HTMLParser())
4 result = etree.tostring(html)
5 print(result.decode("UTF-8"))

3. 獲取所有節點

根據XPath常用規則可知，通過“//”可以查詢當前節點的子孫節點，以上面的HTML為例獲取所有的節點，示例程式碼如下：

1 from lxml import etree
2 
3 html = etree.parse('./test.html',etree.HTMLParser())
4 result = html.xpath('//*') # 表示獲取當前節點的子孫的節點，*表示所有節點，
5                             # //* 表示獲取當前節點下的所有節點
6 for item in  result:
7     print(item)

注：如果不是獲取所有節點而是指定獲取某個節點，只需要將“*”改為指定節點名稱即可，如獲取所有的節點。這個HTMLdiam可以直接放在程式碼變數中，也可以放在檔案中，效果一致。

4. 獲取子節點

根據XPath的常用規則可知，通過“/”或“//”可以獲取子孫結點或子節點。

“//”表示選擇的所有節點，‘/’表示選擇的直接節點。

示例程式碼如下：

1 from lxml import etree
2 
3 html = etree.parse('./test.html',etree.HTMLParser())
4 result = html.xpath('//ul//a')  # 先選擇所有ul節點，再選擇ul節點下的所有a節點。包含元素。
5 result = html.xpath('//ul/a')   # 先選擇所有ul節點，再選擇ul節點下的直接子節點a,不包含元素
6 result = html.xpath('//li/a')   # 先選擇所有li節點，再選擇ul節點下的直接子節點a,包含元素

5. 獲取文字資訊

大多數時候，找到指定節點都是要獲取節點的文字資訊。這裡使用text()方法獲取節點的文字。獲取所有的a標籤文字資訊，示例程式碼如下。

1 from lxml import etree
2 
3 html = etree.parse('./test.html',etree.HTMLParser())
4 result = html.xpath('//ul//a/text()')
5 print(result)

有興趣可以去W3School官網檢視XPath教程。

有志者，事竟成，破釜沉舟，百二秦關終屬楚；苦心人，天不負，臥薪嚐膽，三千越甲可吞吳。

爬蟲與Python：（三）基本庫的使用——2.網路請求庫之request安裝

Python爬蟲中，除了urlib()外，還有一個使用的比較多的HTTP請求庫——requests。這個庫也是常用於HTTP請求模組，它使用Python語言編寫，可以方便的對網頁進行爬取，是學習Python比較好的HTTP請求模組。

爬蟲與Python：（三）基本庫的使用——3.網路請求庫之request使用介紹

爬蟲與Python：（三）基本庫的使用——4.re正則使用

正則表示式是一個特殊的字元序列，它能幫助使用者便捷地檢索一個字串是否與某種模式匹配。在爬蟲中我們經常會使用它來抓取到網頁原始碼或介面返回內容中匹配提取我們想要的資料。

爬蟲與Python：（三）基本庫的使用——6.XPath——XML中查詢資訊的語言

Path是一門在XML文件中查資訊的語言，XPath可用來XML文件中對元素和屬性進行遍歷。XPath是W3C XSLT 標準的主元素，並且XQuery和Xpointer都構建於XPath表達上。XPath在Python的爬蟲學習中，起著舉足輕重的作用，對比

爬蟲與Python：（三）基本庫的使用——擴充套件:requests爬取陽光電影網原始碼

要求本例主要希望讀者聯絡requests的使用，試著用它請求陽光電影網的首頁獲取頁面原始碼，並在控制檯打印出來，請求地址為：http://www.scyky.com/，需要實現的目標如下：

爬蟲與Python：（一）網路爬蟲概念篇——7.Session和Cookie

什麼是Session和Cookie? Session和Cookie是使用者保持HTTP連線狀態的技術。在網頁或APP等應用中基本都會使用到。在寫爬蟲的時候，也經常會涉及需要攜帶Cookie應對一般的反爬，接下來會對Session和Cookie的基本原理做

爬蟲與Python：（二）Python基礎篇——5.字串

資料型別中包含字串。這裡我們將會拓展一些有字串的有關的基礎知識。 Python中訪問字串的值

爬蟲與Python：（二）Python基礎篇——6.編碼

字串也是一種資料型別，但是字串比較特殊的還是編碼問題。因為計算機只能處理數字，如果要處理文字，就必須吧文字轉化為數字。最早計算機在設計時採用了8個位元（bit）作為位元組（Byte），所以，一個位元組能表示的

爬蟲與Python：（二）Python基礎篇——7.列表

序列是Python中最基本的資料結構。序列中的每個元素都分配一個數字，即它的位置或索引，第一個索引時0，第二個索引是1，以此類推Python有6個序列內建型別，但最常見的是列表和元組。許可都可以進行的操作包括索引、

爬蟲與Python：（二）Python基礎篇——9.字典

字典是一種可變容器模型，且可儲存任意型別的物件，用{} 標識。字典是一個無序的鍵和值的集合——key:value 。

爬蟲與Python：（二）Python基礎篇——10.條件語句

語法 Python條件語句是通過一條或多條語句執行結果（True或False）來決定執行的程式碼塊。使用if語句來進行判斷，在Python中if語句一般格式如下：

爬蟲與Python：（二）Python基礎篇——11.迴圈語句

Python中迴圈語句有for和while。Python迴圈語句控制結構如圖1-25所示。 for迴圈在Python中for迴圈可以變數任何序列的專案，如一個列表或一個字串。for迴圈一般格式如下：

爬蟲與Python：（二）Python基礎篇——12.函式

函式是組織好的、可以重複使用的、用來實現單一或相關功能的程式碼段。函式能提高應用的模組性和程式碼的重複利用率。Python提供了許多內建函式。如print()，但也可以自己建立函式，這被稱為使用者自定義函式。

爬蟲與Python：（二）Python基礎篇——13.類

Python中的類提供了面向物件變成的所有基本功能：類的繼承機制允許多個基類，派生類可以覆蓋基類中的任何方法，方法中呼叫類的同名方法。以下是本文將要學習的內容：

爬蟲與Python：（四）爬蟲進階一之資料抓取——2.Python模擬Ajax

如何用用Python模擬Ajax請求，我們仍然以飛常準大資料為例（https://data.variflight.com/analytics/CodeQuery），通過查詢北京機場的三個字母碼“PEK”來請求獲取它的資料，把北京機場的資訊提取出來。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——1.什麼是Pandas

什麼是Pandas Pandas 是 Python 語言的一個擴充套件程式庫，用於資料分析。 Pandas 是一個開放原始碼、BSD 許可的庫，提供高效能、易於使用的資料結構和資料分析工具。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——3.資料結構Series

1. 定義 Pandas Series 類似表格中的一個列（column），類似於一維陣列，可以儲存任何資料型別。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——4.資料結構DataFrame

1. 定義 DataFrame 是一個表格型的資料結構，它含有一組有序的列，每列可以是不同的值型別（數值、字串、布林型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 組成的字典（共同用一個索引）。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——5.CSV檔案

1. 定義 CSV（Comma-Separated Values，逗號分隔值，有時也稱為字元分隔值，因為分隔字元也可以不是逗號），其檔案以純文字形式儲存表格資料（數字和文字）。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——6.JSON化

JSON（JavaScript Object Notation，JavaScript 物件表示法），是儲存和交換文字資訊的語法，類似 XML。

爬蟲與Python：（三）基本庫的使用——6.XPath——XML中查詢資訊的語言

1. XPath的使用方法

2. 利用示例講解XPath的使用

3. 獲取所有節點

4. 獲取子節點

5. 獲取文字資訊

相關推薦