Xpath如何提取一個標籤裡的所有文字？

阿新 • • 發佈：2018-12-22

content = etree.HTML(text)
h = content.xpath('//h1/text()')
h1 = h[0].xpath('string(.)').strip()

例項測試：

測試網頁地址：測試地址

程式碼如下：

import requests
import re
import pymysql
from lxml import etree
from pymongo import MongoClient
sessions = requests.session()
sessions.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'
r = sessions.get(
    'https://baike.baidu.com/item/%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%B1%80%E9%83%91%E5%B7%9E%E5%9F%BA%E7%A1%80%E5%B7%A5%E7%A8%8B%E5%8B%98%E5%AF%9F%E7%A0%94%E7%A9%B6%E9%99%A2%E6%A1%A9%E5%9F%BA%E6%A3%80%E6%B5%8B%E4%B8%AD%E5%BF%83')
r.encoding = 'utf-8'
text = r.text
content = etree.HTML(text)
h = content.xpath('//h1')
h1 = h[0].xpath('string(.)').strip()
d = content.xpath("//div[@label-module='lemmaSummary']")
d1 = d[0].xpath('string(.)').strip()
print(h1)
print(d1)

結果如下：

Xpath如何提取一個標籤裡的所有文字？

content = etree.HTML(text) h = content.xpath('//h1/text()') h1 = h[0].xpath('string(.)').strip() 例項測試：測試網頁地址：測試地址程式碼如下： import reque

Xpath 獲取子標籤下所有文字

在爬蟲中遇見這種怎麼辦想提取名稱, 但是名稱不在一個標籤裡使用xpath string()方法例如 data.xpath("string(path)") path -- 你xpath提取的路徑這裡提取到父標籤 string() 方法會

xpath 提取一個屬性中含有的多個屬性值，contains（）

xpath如何取包含多個class屬性如果HTML結構是這樣 <div class="demo"></div> 那麼我知道可以寫xpath //div[@class="demo"]，但是如果我的html是 <div

SQLServer檢視一個庫裡所有表的資料量

SELECT a.name,b.rows FROM sysobjects a INNER JOIN sysindexes b ON a.id=b.id WHERE b.indid IN(0,1) A

使用批處理提取資料夾下所有文字檔案最後一行

windows下要提取資料夾下所有文字檔案的最後一行到一個檔案中，行前面加上待提取文字的檔名，可新建bat檔案，寫入以下批處理程式碼 @echo off set blank= setlocal en

提取a標籤的連結文字

QQ：979111986/5730473 微信：ainusers 現就職：新浪微博：AinUser 微信公眾號：AinUser 郵箱：[email protected] 程式設計技術交流群：540049350 github：g

python的scrapy運用xpath爬取一個標籤下的所有文字

通常針對某一行的內容時,使用text(). 如: filename = d.xpath("./div[2]/div/div/a[1]/text()").extract().pop() 針對標籤下的存在多個子標籤下的多行時,我們採用string(.)進行獲取. 如:

scrapy 提取多層巢狀標籤下的所有文字

怎樣才能一次性提取多層巢狀標籤的所有文字，詳細如下：假如頁面如下： <p id='test'>hello<b>world!</b></p> 我要的提取結果是：world!（假設world是很多標籤組合的文字）

xpath獲取當前標籤下的所有文字

舉個栗子，也是在下爬新浪微博移動端時遇到的問題，微博評論有普通評論、回覆他人評論和熱門評論，詳情：普通評論回覆他人評論熱門評論使用者評論內容都在<span class="ctt"></span>中，其中，普通評論和熱門評論內容都很容易

輸入一個正整數陣列，把數組裡所有數字拼接起來排成一個數，列印能拼接出的所有數字的最小的一個。例如輸入{3,32,321,4}，則列印最小的數字是 3213234

public class FandMax { public void makeMax(int[] nums){ boolean flag=true; for (int i = 0; i < nums.length; i++) { for (int j = 0; j <

scrapy中xpath將某一個節點下的文字內容串起來

在爬取資料的時候碰到這樣的情況想要拿到紅框裡的東西原始碼裡面顯示的是這樣如果直接用text(),只能拿到的是單個li中的字串這就需要使用xpath中的string()函式，string函式可以將ul底下的字串全部獲取出來，但是string中只能傳遞單個節點

把一個字串裡的所有單詞的第一個字元轉換為大寫

//把一個字串裡的所有單詞的第一個字元轉換為大寫用到了字串方法split slice join charAt toUpperCase var str = 'ni hao ma!' function getUpper(str){ var words = str.split(' '); for(v

用xpath獲取指定標籤下的所有text

今天用xpath獲取的元素下面text 是被幾個b標籤分割開的，我想要一次性全部獲取，參考了其他人的部落格是如下的做法： value_ls = html.xpath("//tr/td[7]") value = value_ls[0].xpath('string(.)').extrac

Java 尋找一個目下的所有“.Java”檔案，並將他們的絕對路徑存到一個文字檔案中

import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.FilenameFilter; import java.io.IOExce

關於xpath提取後內容轉標籤的一點經驗。

result = html.xpath('//ul[@class="extension_ul"]/li') 首先獲取標籤。 for i in result: # etree.tostring()輸出修正後的html程式碼，byte格式 # 轉成utf-8格式，然後decode

從文字框新增陣列值並顯示在一個標籤

我是新來的和總是Stackoverflow,它幫助我總是與我的問題。請幫我拿我的問題我需要做它為我下週的考試。請幫我儘快。使用Visual Basic。我應該建立一個數組和一個整數字符串。整數字符串= =距離的名字。將會有兩個文字框,標籤和2按鈕。

【程式碼提取】提取一個資料夾裡面的所有Java檔案的類名函式名和變數名

讀取一個資料夾中的Java檔案 #include<iostream> #include<fstream> #include<io.h> #include<vector> #include<string> #inc

xpath提取多個標籤下的text

在寫爬蟲的時候，經常會使用xpath進行資料的提取，對於如下的程式碼： <div id="test1">大家好！</div> 使用xpath提取是非常方便的。假設網頁的原始碼在selector中： data = selector.xpath('/

怎麼快速提取一個excel檔案中的所有工作表名

1.首先，我分享第一個方法，這個方法可是非常簡單的哦。開啟一個含有多個工作表的excel工作薄，然後新建一個工作表，此處命名為“彙總表”，如下圖所示。 2.找到“檢視程式碼”並開啟，查詢方法如下圖所示，有以下兩個方法：1.滑鼠右鍵點選“彙總表”，在下拉選單

演算法4— 判斷一個字串裡是否包含另一個字串所有的字元

問題：有兩個字串，每個字串的字元從A-Z中選取，比如： B = “ABBC”， A = “ACBBD”。那麼A包含所有B中出現的字元。如果A = “ACBD” 或者 A = “ABBD”，則我們認為A不包含B中所有的字元。分析：對於“是否包含”的問題，基本上

Xpath如何提取一個標籤裡的所有文字？

相關推薦