Xpath使用例項和需要注意的事項

阿新 • • 發佈：2019-01-01

Xpath使用例項和需要注意的事項

Xpath的語法介紹就不贅述了，參考：https://blog.csdn.net/u011486491/article/details/84061432

這篇文章就以實際使用為例，對一些xpath比較複雜的情況進行討論使用。

常用的標籤提取欄位

<li class="tjqyList-content">
    <div class="tjqyList-contentLf">
       <!-- <h4 class="tjqyList-contentLf-company">大理市昌建捲簾門廠 <span>生意通</span></h4>-->
           <h4 class="tjqyList-contentLf-company xh-highlight"><a href="http://www.jqw.com/corpshow-2018000058762.htm" target="_blank">大理市昌建捲簾門廠</a> <span>生意通VIP</span></h4>
        <p class="tjqyList-contentLf-ckgd"><a href="http://www.jqw.com/corpshow-2018000058762.htm" target="_blank">檢視更多公司資訊&gt;</a></p>
  <p class="fabuTime"><span>釋出時間：</span>2018-11-29</p>
    </div>
    <div class="tjqyList-contentRt">
        <!--imglis_start-->
        <div class="tjqyList-contentRt-pic">
            <a href="http://www.dlcj.jqw.com/productShow-282932.htm" target="_blank">
            <img src="http://img3.jqw.com/2018/11/27/1914201/product/201811291549351233.jpg" alt="">
            <p>大理車庫門定做</p>
            </a>
        </div>
       <!--imglis_end-->
    </div>
</li>

兩個標籤間的內容：text()

//div[@class='tjqyList-contentLf']/h4[@class='tjqyList-contentLf-company']/a/text()

標籤內的屬性:@title @class @href

//div[@class='tjqyList-contentLf']/h4[@class='tjqyList-contentLf-company']/a/@href

模糊提取模式

函式	用法	解釋
starts-with	xpath(‘//div[starts-with(@id,”ma”)]‘)	選取id值以ma開頭的div節點
contains	xpath(‘//div[contains(@id,”ma”)]‘)	選取id值包含ma的div節點
and	xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘)	選取id值包含ma和in的div節點
text()	xpath(‘//div[contains(text(),”ma”)]‘)	選取節點文字包含ma的div節點

選取a標籤下text包含“聯絡”和“昆明”欄位的a標籤

//a [contains(text(),"聯絡") and contains(text(),"昆明")]

找去a標籤下text包含“聯絡”和“昆明”欄位並且title屬性中包含化妝的a標籤

//a[contains(text(),"聯絡") and contains(text(),"昆明") and contains(@title,"化妝")]

注意：

xpath = response.xpath('//span[@class="total"]/text()').extract() 通過xpath得到的資料是一個selector的陣列：

<Selector xpath='//span[@class="total"]/text()' data='共50頁'>] 通過.extract()之後才能拿到String的值

巢狀分層提取

def parse(self, response):
    self.pagecount += 1
    print('--------------'+str(self.pagecount)+'---------------')
    if(self.pagecount == self.totalPage):
        return

    # 解析使用者資料
    dataArray = response.xpath('//div[@class="tjqyList-contentLf"]')
    for each in dataArray:
        item = ItemJinQuanCompanyInfo()
        item['companyName']=each.xpath('h4[@class="tjqyList-contentLf-company"]/a/text()').extract()
        item['business']=each.xpath('p[@class="tjqyList-contentLf-hy"]/text()').extract()
        item['address']=each.xpath('p[@class="tjqyList-contentLf-adr"]/text()').extract()
        item['phone']=each.xpath('p[@class="tjqyList-contentLf-lx"]/text()').extract()
        item['people']=each.xpath('p[@class="tjqyList-contentLf-yg"]/text()').extract()
        yield item

    requestUrl = self.baseUrl + "/"+str(self.pagecount) +"/" + "area.html"
    yield Request(requestUrl, callback=self.parse)

注意事項

1、在巢狀分層提取的時候，需要注意：我們需要提取的是selector，如果加入.extract()就變成了String，就無法呼叫.xpath()了。在第二層提取的時候

each.xpath('p[@class="tjqyList-contentLf-hy"]/text()').extract()

沒有了//而這是是預設以第一層的結果進行匹配的

2、對列表中的各個元素呼叫 .extract() 方法，返回結果為單一化的unicode字串列表。

3、selector，它是對選擇某些內容響應的封裝。他可以繼續用xpath進行選擇。

Xpath使用例項和需要注意的事項

Xpath使用例項和需要注意的事項 Xpath的語法介紹就不贅述了，參考：https://blog.csdn.net/u011486491/article/details/84061432 這篇文章就以實際使用為例，對一些xpath比較複雜的情況進行討論使用。常用的標籤提取欄位

預科階段2---就業和找工作需要注意事項

一、面試前，三大步讓你秒殺90%競爭者（全是乾貨） 1.瞭解公司的基本情況 a.所在公司的行業是否有前景 b公司的歷史和結構 c.公司的產品和專案有哪些（官網檢視） 2.側重於那一塊的技術，重點複習（認真的花費2h左右即可）通過該公司官網或者正規招聘網站，檢視該公

iOS友盟做第三方登入和分享注意事項

本人使用友盟SDK的真實經歷,全,比官方文件詳細 1.下載友盟SDK及開發文件 2. 去開放中心註冊微信/QQ/微博的AppKey,注意,必須新增測試的QQ號,才能在測試,否則QQ返回登入授權失敗 3. http傳輸安全設定 A、在info.plist中加入安全域名白名單

char陣列和char指標的使用區別和一些注意事項

const用法 const char* p;表示p是一個指向常量字元的指標 char* const p;表示p是一個指向字元的常量指標，p是不允許改變的另外要注意的是 const char* p等價於 char const *p 也就是說const描述char和*p是等價的

移動端網頁佈局中需要注意事項以及解決方法總結

移動端網頁佈局中需要注意事項以及解決方法總結，這份對我們在佈局移動端網頁的時候非常有用！ winphone系統a、input標籤被點選時產生的半透明灰色背景怎麼去掉 <meta name="msapplication-tap-highlight"&nbs

Spring Boot日誌配置中的file和path注意事項

注意：同時配置了logging.file和logging.path只有一個生效。例如 application.properties檔案中的日誌配置如下 logging.file=mylog.txt logging.path=/var/myapp/ 實際只有logging.

【轉】分散式事務之TCC服務設計和實現注意事項

1、TCC簡介 TCC是一種比較成熟的分散式事務解決方案，可用於解決跨庫操作的資料一致性問題； TCC是服務化的兩階段程式設計模型，其Try、Confirm、Cancel 3個方法均由業務編碼實現；其中Try操作作為一階段，負責資源的檢查和預留，Confirm操作作為二階段提交操作，執行真正的業務，C

SQVI和SAP查詢QUERY的區別和使用注意事項

SQVI、SAP查詢QUERY都適用於簡單的表連線資料查詢，但都不能打包傳輸到PRD，不同環境需要重複建立。可以生成報表程式供T-CODE呼叫，用se93指定事務碼和程式名稱。區別1-許可權： SQVI每個使用者建立的query只能自己檢視，別的使用者看不到，但是通過掛接事務碼可以解決。

G++和C++區別和評測注意事項

G++和C++的區別和評測注意事項下面摘抄自網際網路 G++ 首先更正一個概念，C++是一門計算機程式語言，G++不是語言，是一款編譯器中編譯C++程式的命令而已。那麼他們之間的區別是什麼？在提交題目中的語言選項裡，G++和C++都代表編譯的方式。準確地說

Java筆記：成員變數，區域性變數，類變數，例項變數以及注意事項

區域性變數：方法中定義的變數。成員變數（類似C中的全域性變數）：成員變數定義在方法體和語句塊之外。成員變數就概括描述了類中的變數，不區分static。是以下變數的統稱。類變數（靜態變數）：獨立於方法之外的變數，屬於類本身。需要static修飾，事實上，類變數就是以static修飾的獨立於方法之外的成員

【ACM】INT_MAX和INT_MIN注意事項

INT_MIN在標準標頭檔案limits.h中定義。 #define INT_MAX 2147483647 #define INT_MIN (-INT_MAX - 1) 在C/C++語言中，不能夠直接使用-2147483648來代替最小負數，因為這不是一

設定post_max_size和upload_max_filesize 注意事項

設定post_max_size和upload_max_filesize php上傳檔案限制涉及很多方面，大致歸納一下，有如下幾個： 1、memory_limit記憶體設定限制 2、max_execution_time程式執行時間限制 3、post_max_size最大POST資料限制

pthreads v3下一些坑和需要注意的地方

一、子執行緒無法訪問父執行緒的全域性變數，但父執行緒可以訪問子執行緒的變數 <?php class Task extends Thread { public $data; public function run() { global $n

facebook的Android除錯工具Stetho介紹和使用注意事項

facebook的Android除錯工具Stetho介紹一、前言 Chrome的Developer Tools對於WEB開發者來講幾乎是一個神器，而Chrome Store裡也有無奇不有的外掛，如果Chrome能調安卓應用應該是一件美好的事，而Facebook

儲存過程的好處和一些注意事項！

儲存過程天天用，關於使用儲存過程的sql語句的爭論也一直在，個人覺得使用儲存過程要好於用sql語句，整理了一些說明：儲存過程是由一些SQL語句和控制語句組成的被封裝起來的過程，它駐留在資料庫中，可以被客戶應用程式呼叫，也可以從另一個過程或觸發器呼叫。它的引數可以被傳遞和返

centos安裝php7.1和nginx注意事項

centos安裝php7.18注意報錯–php53-common conflicts with php-common //解決 yum -y install php* --skip-bro

DB2安裝步驟和一些注意事項

由於最近的專案中用到了db2這個資料庫，以前沒有使用過，所以遇上了很多的問題，比如在下載的過程中，網上很少有能直接下載的地方，IBM的官網基本上是下載不了的，最後經歷了“千辛萬苦”，才找到了能下載的地址，在最後的安裝過程中也出現了不少的問題。廢話不多說，現將一些

一臺Linux伺服器上同時部署多個Tomcat方法需要注意事項

一、原理講解： tomcat啟動可以通過兩個指令碼分別進行啟動 ./startup.sh 或者 catalina.sh run 形式執行啟動其實startup.sh的啟動也是呼叫的catalina.sh，然後去啟動的，所以我們需要關注的就是catalina.sh檔案

hashCode 和 equals 正確用法和需要注意的地方（面試基本都會問）

文章來源：文章目錄： 1、hashCode()和equals()的用法 2、重寫預設實現 3、使用Apache Commons Lang包重寫hashCode()和equals() 4、需要注意記住的事情 5、當使用ORM的時候特別要注意的 has

Ionic2自定義遮罩層和相關注意事項

1、自定義遮罩層步驟 1.1先建立一個展示框，在遮罩層之上 <div class="aboutPage-isShowDiv" *ngIf="isShow"> <h1>放內容</h1> </di

Xpath使用例項和需要注意的事項

Xpath使用例項和需要注意的事項

常用的標籤提取欄位

模糊提取模式

巢狀分層提取

注意事項

相關推薦