xpath提取多個標籤下的text

阿新 • • 發佈：2019-01-08

在寫爬蟲的時候，經常會使用xpath進行資料的提取，對於如下的程式碼：

<div id="test1">大家好！</div>

使用xpath提取是非常方便的。假設網頁的原始碼在selector中：

data = selector.xpath('//div[@id="test1"]/text()').extract()[0]

就可以把“大家好！”提取到data變數中去。

然而如果遇到下面這段程式碼呢？

<div id="test2">美女，<font color=red>你的微信是多少？</font><div>

如果使用：

data = selector.xpath('//div[@id="test2"]/text()').extract()[0]

只能提取到“美女，”；

如果使用：

data = selector.xpath('//div[@id="test2"]/font/text()').extract()[0]

又只能提取到“你的微信是多少？”

可是我本意是想把“美女，你的微信是多少？”這一整個句子提取出來。

這還不是最糟糕的，還有第三段程式碼：

<div id="test3">我左青龍，<span id="tiger">右白虎，<ul>上朱雀，<li>下玄武。</li></ul>老牛在當中，</span>龍頭在胸口。<div>

而且內部的標籤還不固定，如果我有一百段這樣類似的html程式碼，又如何使用xpath表示式，以最快最方便的方式提取出來？

我差一點就去用正則表示式替換了。還好我去Stack Overflow上面提了問。於是很快就有人給我解答了。

使用xpath的string(.)

以第三段程式碼為例：

data = selector.xpath('//div[@id="test3"]')
info = data.xpath('string(.)').extract()[0]

這樣，就可以把“我左青龍，右白虎，上朱雀，下玄武。老牛在當中，龍頭在胸口”整個句子提取出來，賦值給info變數。

http://www.tuicool.com/articles/iqQFBn

xpath提取多個標籤下的text

在寫爬蟲的時候，經常會使用xpath進行資料的提取，對於如下的程式碼： <div id="test1">大家好！</div> 使用xpath提取是非常方便的。假設網頁的原始碼在selector中： data = selector.xpath('/

ubuntu下自動開啟多終端的多個標籤並執行不同指令碼的方法

原理還不是很懂, 先記錄一下首先先保證在 .bashrc 追加上這樣一行: eval "$BASH_POST_RC" 下面這條命令, 開啟一個終端, 並在.bashrc生效後執行pwd命令; gnome-terminal --tab -e 'bash -c "ex

大型工程多個目錄下的Makefile寫法

qt5 pan ron 指定 com exec bsp 可執行文件不同 1、前言　　目前從事於linux下程序開發，涉及到多個文件，多個目錄，這時候編譯文件的任務量比較大，需要寫Makefile。關於Makefile的詳細內容可以參考網上流傳非常廣泛的《跟我一起寫Ma

Jmeter正則表達式提取多個值示例

tps == 就是 blog 字符常用 () 針對如圖所示首先了解一下常用正則表達式的語法 \d 數字 \w 數字或者字母 . 可以匹配任意字符星號* 表示任意個字符 +

使用VB指令碼快速將多個Excel多個Sheet下的資料歸併到一個Excel

當遇到要將多個Excel下的資料歸併時,特別是Excel資料量達到GB級別時,複製貼上操作就顯得很LOW,這種傻瓜操作要做幾天幾夜都沒法處理完,外行人只能看Excel發嘆.這時開發工具下的VB編輯器就起作用了.這裡秀一波操作,便利做財務,做資

Linux教程：在 Ubuntu 15.04 的 GNOME 終端中開啟多個標籤

問: 我以前可以在我的桌上型電腦中的 gnome-terminal 中開啟多個標籤。但升到 Ubuntu 15.04 後，我就無法再在 gnome-terminal 視窗中開啟新標籤了。要怎樣做才能在 Ubuntu 15.04 的 gnome-terminal 中開啟標籤呢？在

JQuery 同時獲取多個標籤的指定內容並儲存為陣列

文章來自：原始碼線上https://www.shengli.me/jquery/271.html 此時的list1的陣列中每個元素已經不是'li'物件,如此執行控制檯會報錯: &nbs

Spring Security 配置多個標籤與HttpSecurity對應關係

在把以前的xml配置改到java配置，找了半天沒找到…於是試出來以後才在官方文件搜尋到引用一句話： http擁有一個匹配URL的pattern（對應.antMatcher()），未指定時表示匹配所有的請求，其下的子

前端css跟jq 驗證多個標籤的第幾個的語法跟 box-sizing：border-box;

前端：比如 .index #slider 第三個 .index #slider:nth-child(3n) js .index #slid

OpenCV練習：嘗試同時提取多個不同的顏色物體，比如同時提取紅，藍，綠三個不同顏色的物體。

python： 1.先是通過 import cv2 import numpy as np red = np.uint8([[[255,0,0]]]) hsv_red=cv2.cvtColor(red,cv2.COLOR_BGR2HSV) print hsv_red green=np.ui

HTML提取所有div標籤下的所有及下子標籤的內容

示例程式碼如下： <div> <p>123154872313</p> <p>test <em>http://baidu.com</em> </p> </div> p標籤下的內容一般是網頁文字內容，

easyui中一個頁面多個combobox下拉框載入同一json資料，下拉框無法選中問題

版本問題，可以通過升級easyui為最新版本解決，也可以通過以下程式碼處理/** * 初始化下拉框 * @param unitid dom元素id * @param value 初始化選中值 * @param data json資料集合 */ function in

jmeter正則表示式提取多個值

{ "billMoney":65, "billNo":"100001171201100014", "combineTableStatus":"0", "diningAreaRelateId":"CDEB8BFBE8

PHPCMS呼叫多個欄目下文章的兩個辦法

第一種、直接寫子欄目id ，用cat in {pc:get sql="SELECT * from v9_news where status=99 and catid in(21,22,23,24,25) thumb!='' order by id DESC" num=

如何實現瀏覽器內多個標籤頁之間的通訊？

本題主要考察資料儲存的知識，資料儲存有本地和伺服器儲存兩種方式。這裡主要講解用本地儲存方式解決。即呼叫 localStorage、Cookie等本地儲存方式。第一種——呼叫localStor

如何實現同一瀏覽器多個標籤頁之間的通訊（一）——localStorage

一、localStorage （1）localStorage是什麼？ localStorage物件在修訂過的HTML5規範中作為持久儲存在客戶端資料的方案取代了globalStorage，是Stor

Swiper動態載入不顯示沒效果(對使用多個swiper下標有時顯示不出來的問題)

Swiper動態載入不顯示沒效果對使用多個swiper下標有時顯示不出來的問題,如下圖所示，解決方法只需要在Js中增加這兩行程式碼即可； observer: true, //修改swiper自己或子元素時，自動初始化swiper

改變多個ul下第一個li的樣式

body內的程式碼如下<ul> <li>華仔</li> <li>華仔</li> <li>華仔</li> </u

多個select下拉框，選中當前某一項，其他下拉框去掉選中的值

$(document).ready(function() { var oldvalue = ""; //上一次選中的值 var currentvalue = ""; //當前選中的值 $('.video_in select').each(fun

[轉]sessionStorage在同一網站多個標籤頁內共享資料嗎？這取決於標籤頁如何開啟

------------------------------------------------------- 一直以來，我所以為的 sessionStorage 的生命週期是這樣的：在 sessionStorage 中儲存的資料會在當前瀏覽器的同一網站的多個標籤頁中共

xpath提取多個標籤下的text

相關推薦