python爬蟲學習之XPath基本語法

阿新 • • 發佈：2018-12-30

XPath 使用路徑表示式來選取 XML 文件中的節點或節點集。節點是通過沿著路徑（path）或者步（steps）來選取的。

XML例項文件

我們將在下面的例子中使用這個XML文件。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book> 

  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

選取節點

XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

下面列出了最有用的路徑表示式：

表示式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

例項

在下面的表示式中，我們已經列出了一些路徑表示式以及表示式的結果：

路徑表示式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素bookstore。註釋：假如路徑起始於正斜槓（/），則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文件中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。
//@lang	選取名為 lang 的所有屬性。

謂語（Predicates）

謂語用來查詢某個特定的節點或者包含某個指定的值的節點。謂語被嵌在方括號中。

例項

在下面的表格中，我們列出了帶有謂語的一些路徑表示式，以及表示式的結果：

路徑表示式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang='eng']	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

選取未知節點

XPath 萬用字元可用來選取未知的 XML 元素。

萬用字元	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何型別的節點。

例項

在下面的表格中，我們列出了一些路徑表示式，以及這些表達的結果：

路徑表示式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文件中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

選取若干路徑

通過在路徑表示式中使用 "|" 運算子，您可以選取若干個路徑。

例項

在下面的表格中，我們列出了一些路徑表示式，以及這些表示式的結果：

路徑表示式	結果
//book/title \| //book/price	選取 book 元素的所有 title 和 price 元素。
//title \| //price	選取文件中的所有 title 和 price 元素。
/bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文件中所有的 price 元素。

python爬蟲學習之XPath基本語法

XPath 使用路徑表示式來選取 XML 文件中的節點或節點集。節點是通過沿著路徑（path）或者步（steps）來選取的。 XML例項文件我們將在下面的例子中使用這個XML文件。 <?xml version="1.0" encoding="ISO-8859-1"?> <

python爬蟲學習之正則表示式的基本使用

一、正則表示式　　1. 正則表示式是字串處理的有力工具和技術。　　2. 正則表示式使用某種預定義的模式去匹配一類具有共同特徵的字串，主要用於處理字串，可以快速、準確地完成複雜的查詢、替換等處理要求，在文字編輯與處理、網頁爬蟲之類的場合中有重要應用。　　3. Python中，re模組提供了正則表示式操作所需

python爬蟲學習之路-遇錯筆記-1

sig packages ror caused 技術 bsp img exception mage 當在編寫爬蟲時同時開啟了Fidder解析工具時，訪問目標站點會遇到以下錯誤： File "C:\Users\litao\AppData\Local\Programs\P

Python的學習之旅———基本數據類型 (元組)

切片 bsp 操作取值可變 tro num nbsp 運算可以存儲多個值主要用來讀元組不可變可以當作字典的key number=(10，12，34，65，234，123) # number=tuple(10，12，34，65，234，123) 可以按照索引取值

Python的學習之旅———基本數據類型(字符編碼)

統一所有語言一個記錄取代 edi 科學文字計算機中儲存的信息都是用二進制數表示的。通俗的說，按照何種規則將字符存儲在計算機中，如‘n‘用什麽表示，稱為"編碼"；反之，將存儲在計算機中的二進制數解析顯示出來，稱為"解碼".在解碼過程中，如果使用了錯誤的解碼規則，

爬蟲學習之-xpath

path aid ebr ast 函數文本通過 passport attr sel 1、XPATH使用方法使用XPATH有如下幾種方法定位元素（相比CSS選擇器，方法稍微多一點）： a、通過絕對路徑定位元素（不推薦！） WebElement ele = driver

Python 爬蟲開發之xpath使用

在進行爬蟲開發中，需要的頁面資訊進行解析處理，獲取到需要的關鍵資料。可以利用xpath進行對頁面的xml檔案進行解析處理，獲取到需要的關鍵資料。XPath使用:XPath 可用來在 XML 文件中對元素和屬性進行遍歷.from lxml import etreeimport urllib2req = urll

python爬蟲學習之爬取全國各省市縣級城市郵政編碼

例項需求：運用python語言在http://www.ip138.com/post/網站爬取全國各個省市縣級城市的郵政編碼，並且儲存在excel檔案中例項環境：python3.7　　　　　　 requests庫(內建的python庫，無需手動安裝)　　　　　　 xlwt庫(需要自己手動安裝) 例項網站：

Python爬蟲學習之正則表達式爬取個人博客

9.png turn () htm parent ast string 則表達式 urn 實例需求：運用python語言爬取http://www.eastmountyxz.com/個人博客的基本信息，包括網頁標題，網頁所有圖片的url，網頁文章的url、標題以及摘要。實

python爬蟲學習之日誌記錄模組

這次的程式碼就是一個日誌記錄模組，程式碼很容易懂，註釋很詳細，也不需要安裝什麼庫。提供的功能是日誌可以顯示在螢幕上並且儲存在日誌檔案中。呼叫的方式也很簡單，測試程式碼裡面有。原始碼： #encoding=utf-8 import logging import getpass import

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

python爬蟲學習之urllib庫

urlopen get型別的網頁： import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('utf-8'

python爬蟲學習之起點小說抓取

info 心得圖片請求頭 http path req strong 修改爬蟲學習的一點心得任務：抓取某小說網站小說並下載抓取：selenium 解析：xpath，正則表達式遇到的問題: 1.用requests抓取的時候，無論如何修改請求頭，抓取的源代碼

python爬蟲學習筆記（二）——基礎篇之爬蟲基本原理

包括 for .py 非關系型原理 sof 301跳轉 close bsp 1.什麽是爬蟲？　　請求網站並提取數據的自動化程序 2.爬蟲基本流程　2.1發起請求　　通過HTTP庫向目標站點發起請求，即發起一個Request，請求可以包含額外的headers等信息，等

ELK 學習筆記之 Logstash基本語法

技術 logs erl 定義 -s images cnblogs img ron Logstash基本語法：處理輸入的input 處理過濾的filter 處理輸出的output 區域數據類型條件判斷字段引用區域： Logstash中，是用{}

python爬蟲scrapy之rules的基本使用

highlight 目的創建 true ans 滿足 topic hole auth Link Extractors Link Extractors 是那些目的僅僅是從網頁(scrapy.http.Response 對象)中抽取最終將會被follow鏈接的對象? Scra

Python學習之路-基本數據類型

bool bsp 基本數據 ring mar odi complex oat python 數字number 整數int 復數complex 浮點數float 小整數池：-5~257 布爾值bool True Falsel 三元運算 __author__

Python爬蟲學習筆記之微信宮格驗證碼的識別(存在問題)

依次返回結果 ptc 接下來 clas 軌跡 self top http 本節我們將介紹新浪微博宮格驗證碼的識別。微博宮格驗證碼是一種新型交互式驗證碼，每個宮格之間會有一條指示連線，指示了應該的滑動軌跡。我們要按照滑動軌跡依次從起始宮格滑動到終止宮格，才可以完成驗證，

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

python爬蟲學習之XPath基本語法

相關推薦