scrapy基礎之 xpath網頁結構

阿新 • • 發佈：2018-07-29

5.0 sel books category 層級 enc descend ray 基礎

1 ，什麽是xpath

XPath 是一門在 XML 文檔中查找信息的語言。XML是一種類似於HTML的傳輸協議

2，節點

XPath 中，有七種類型的節點：元素、屬性、文本、命名空間、處理指令、註釋以及文檔（根）節點。

實例：

 <?xml version="1.0" encoding="ISO-8859-1"?>

 <bookstore>
  <book>
     <title lang="en">Harry Potter</title>
     <author>J K. Rowling</author>
     <year>2005</year>
     <price>29.99</price>
   </book>
</bookstore>

　解析： <bookstore> (文檔節點) <author>J K. Rowling</author> (元素節點) lang="en" (屬性節點) J K. Rowling（基本值） #一般把基本值或者節點叫做項目。

節點關系有父和子之分：

 <book>    #父
   <title>Harry Potter</title>    #是book的子，同級的項目叫做同胞，title，auther，year 和price叫做同胞
   <author>J K. Rowling</author>    #同上
   <year>2005</year>    #同上
   <price>29.99</price>    #同上
 </book>

超過一級的父子節點關系叫做先輩和後代，比如父的父，子的子等

3，選取節點

XML實例：

<?xml version="1.0" encoding="ISO-8859-1"?>

 <bookstore>

 <book>
   <title lang="eng">Harry Potter</title>
   <price>29.99</price>
 </book>

 <book>
   <title lang="eng">Learning XML</title>
   <price>39.95</price>
 </book>

 </bookstore>

#選取節點的規則

nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

節點選取實例：

bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文檔中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麽位置。
//@lang	選取名為 lang 的所有屬性。
/bookstore/book/price/text()    text()選取所有文本的意思

　註意：如果 XPath 的開頭是一個斜線（/）代表這是絕對路徑。如果開頭是兩個斜線（//）表示文件中所有符合模式的元素都會被選出來，即使是處於樹中不同的層級也會被選出來。

謂語：

/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=‘eng‘]	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

如何選取未知的節點：

*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何類型的節點。

　 /bookstore/* 選取 bookstore 元素的所有子元素。 //* 選取文檔中的所有元素。 //title[@*] 選取所有帶有屬性的 title 元素。

路徑表達式中使用"|"運算符，您可以選取若幹個路徑:

        //book/title | //book/price 選取book 元素的所有 title 和 price 元素。

        //title | //price 選取文檔中的所有 title 和 price

4 軸

通過 XPath 軸可以定義相對於當前節點的節點集。

ancestor	選取當前節點的所有先輩（父、祖父等）。
ancestor-or-self	選取當前節點的所有先輩（父、祖父等）以及當前節點本身。
attribute	選取當前節點的所有屬性。
child	選取當前節點的所有子元素。
descendant	選取當前節點的所有後代元素（子、孫等）。
descendant-or-self	選取當前節點的所有後代元素（子、孫等）以及當前節點本身。
following	選取文檔中當前節點的結束標簽之後的所有節點。
namespace	選取當前節點的所有命名空間節點。
parent	選取當前節點的父節點。
preceding	選取文檔中當前節點的開始標簽之前的所有節點。
preceding-sibling	選取當前節點之前的所有同級節點。
self	選取當前節點。

6 實例

<?xml version="1.0" encoding="ISO-8859-1"?>

 <bookstore>

 <book category="COOKING">
   <title lang="en">Everyday Italian</title>
   <author>Giada De Laurentiis</author>
   <year>2005</year>
   <price>30.00</price>
 </book>

 <book category="CHILDREN">
   <title lang="en">Harry Potter</title>
   <author>J K. Rowling</author>
   <year>2005</year>
   <price>29.99</price>
 </book>

 <book category="WEB">
   <title lang="en">XQuery Kick Start</title>
   <author>James McGovern</author>
   <author>Per Bothner</author>
   <author>Kurt Cagle</author>
   <author>James Linn</author>
   <author>Vaidyanathan Nagarajan</author>
   <year>2003</year>
   <price>49.99</price>
 </book>

 <book category="WEB">
   <title lang="en">Learning XML</title>
   <author>Erik T. Ray</author>
   <year>2003</year>
   <price>39.95</price>
 </book>

 </bookstore>

選取所有的title：/bookstore/book/title

選取第一個book下面的title：/bookstore/book[1]/title

選取price節點中所有的文本：/bookstore/book/price/text()

選取價格高於35的所有price節點的文本：/bookstore/book[price>35]/price

選取價格節點高於35的所有title節點：/bookstore/book[price>35]/title

scrapy基礎之 xpath網頁結構

5.0 sel books category 層級 enc descend ray 基礎 1 ，什麽是xpath XPath 是一門在 XML 文檔中查找信息的語言。XML是一種類似於HTML的傳輸協議 2，節點 XPath 中，有七種類型的節點：元素、屬性

python+selenium基礎之XPATH定位

方式沒有基礎元素 w3c com pytho round con 世界上最遠的距離大概就是明明看到一個頁面元素矗在那裏，但是我卻定位不到！！ selenium定位元素的方法有很多種，像是通過id、name、class_name、tag_name、link_text

JAVA基礎之迴圈選擇結構

1）順序結構：從上往下，依次執行 2）選擇結構：if語句1：if(關係表示式) {語句體;} if語句2：if(關係表示式) {語句體1;} else {語句體2;} if語句3：if(關係表示式1) {語句體1;} else if(關係表示式2) {語句

Android Studio基礎之專案目錄結構(四)-學習篇

開始前先說下什麼是Gradle 這是我在網上找到的對Gradle的描述： At the heart of Gradle lies a rich extensible Domain Specific Language (DSL) based on Gro

Selenium自動化測試之Xpath網頁元素定位

XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。XPath雖然是被設計用來搜尋XML文件的，不過它也能很好的在HTML文件中工作，並且大部分瀏覽器也支援通過XPath來查詢節點。 xpath的作用就

redis基礎之HyperLogLog資料結構

一、概述： Redis 在 2.8.9 版本添加了HyperLogLog 結構。 RedisHyperLogLog 是用來做基數統計的演算法，HyperLogLog 的優點是，在輸入元素的數量或者體積非常非常大時，計算基數所需的空間總是固定的、並且是很小的。在 Redis

scrapy基礎知識之使用FormRequest.from_response()方法模擬用戶登錄：

imp gin req params level spa 密碼重寫 start 通常網站通過實現對某些表單字段（如數據或是登錄界面中的認證令牌等）的預填充使用Scrapy抓取網頁時，如果想要預填充或重寫像用戶名、用戶密碼這些表單字段，可以使用 FormRequest

scrapy基礎知識之 pycharm 調試小技巧：

.py 小技巧 char line awl spi cmd 調試基礎知識在項目根目錄下新建main.py文件,用於調試 from scrapy.cmdline import executeexecute(["scrapy","crawl","MySpider"])scr

scrapy基礎知識之 RedisCrawlSpider：

span 準備動態 none efi pytho sel ext import 這個RedisCrawlSpider類爬蟲繼承了RedisCrawlSpider，能夠支持分布式的抓取。因為采用的是crawlSpider，所以需要遵守Rule規則，以及callback不能寫

scrapy基礎知識之 Scrapy-Redis分布式策略：

空間 spider head spi 指紋負責 edi all redis Scrapy-Redis分布式策略：假設有四臺電腦：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一臺電腦都可以作為 Master端或 Slave

scrapy基礎知識之關於爬蟲部分一些建議：

限制支持結束攜程 target 經理框架實際應用分享 1.盡量減少請求次數，能抓列表頁就不抓詳情頁，減輕服務器壓力，程序員都是混口飯吃不容易。 2.不要只看 Web 網站，還有手機 App 和 H5，這樣的反爬蟲措施一般比較少。 3.實際應用時候，一般防守方做到

計算機基礎之計算機硬件軟件數據結構

clas 基礎 ble ner 通信 lan 集合馮諾依曼圖書一切生產工具都是人類器官功能的延伸，智力活動彌補體力勞動的不足：一切交通工具都是腿力的延伸。一切機床都是手力的延伸；望遠鏡、顯微鏡、電視都是眼力的延伸。電話、收音機、通訊衛星都是耳

java基礎知識之循環結構與數組

建議多行 con 導致 ++ java基礎知識集合情況變化 1.for循環：for(循環變量的初始化1；循環的條件2；循環變量的變化3）{循環體4； }執行順序為：1,2,4,3,2,4,3,2,4,3,2,4,3.。。。。當2為false時結束

Java基礎之結構-->>條件結構與循環結構

分隔 tin 情況方法 1.5 pri 學習多條語句 for循環 Java中程序流程控制語句包括條件結構、循環結構和跳轉語句 4.1條件結構條件結構包括順序結構和選擇結構。順序結構在程序執行中沒有跳轉和判斷，知道程序結束為止。選擇結構包括 if 語句，if-else

Web前端攻城獅培養計劃之前端小白入門：網頁布局基礎與常見網頁特效

圖像空間實戰 ref 學會結構 position 運算操作常見步驟1: HTML基礎超文本標記語言（英文縮寫：HTML）是為“網頁創建和其它可在網頁瀏覽器中看到的信息”設計的一種標記語言,為搭建網頁結構做出第一步。本階段主要介紹了HTML的語法基礎、表格、表單、等

c語言基礎之指針、數組和結構體

sizeof 12px 不為 auto 思維方式中介 -c struct 數據結構指針是c語言的靈魂怎麽強調都不為過，指針也是c語言最復雜和難理解的概念，數組是多個類型相同的變量在一塊連續的內存空間，數組是最基本也算是最簡單的數據結構，結構體本質上就像是一個包裹

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

python基礎之分支結構

python基礎 ... lse 分支 strip() b+ pass inpu 分數 python基礎之分支結構 if ... else .... #if ... else 循環 username = input(‘請輸入用戶名\n‘).strip() password

逆向基礎之結構體對齊

eof 成員對齊偏移 str 最大結構體基礎數據 sizeof 遵循以下原則，數據成員對齊；結構體大小；結構體有某些成員大，最大對齊，對齊參數筆結構體的sizeof小，偏移以此為準。struct{ char a;int b;char c;}a 1b,補3b 4bc

1.Java基礎之識別符號命名法、八大基本資料型別三大引用型別、運算子以及程式分支結構、方法的定義過載遞迴

一、基礎匯入： 1.java採用Unicode編碼，16進位制編碼，支援世界上所有語言（GBK,gb2312,Unicode,UTF-8,ISO-8859-1）。多執行緒---> c-編譯型語言 Test.java--原始檔，原始檔必須與主類名(public class Test

scrapy基礎 之 xpath網頁結構

1 ，什麽是xpath

2，節點

3，選取節點

4 軸

6 實例

相關推薦

scrapy基礎之 xpath網頁結構