lxml解析html時，檢驗XPath

阿新 • • 發佈：2019-02-14

這兩天在研究Scrapy，在遇到用Xpath提出時，需要有Chrome的XPath helper，但老是出現錯誤。廢話少說，還是先把測試網頁儲存到本地，逐步的測試提取。

測試文字text.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>測試－常規方法</title>
</head>
<body>
<div id="content">
    <ul id="useful" 
>
        <li>這是第一條資訊</li>
        <li>這是第二條資訊</li>
        <li>這是第三條資訊</li>
    </ul>
    <ul id="useless">
        <li>不需要的資訊１</li>
        <li>不需要的資訊２</li>
        <li>不需要的資訊３</li>
    </ul>

    <div id="url" 
>
        <a href="http://jikexueyuan.com">極客學院</a>
        <a href="http://jikexueyuan.com/sourse/" title="極客學院課程庫">點我開啟課程庫</a>
    </div>
</div>

<div id="test-0">大家好！</div>
<div id="test-1">需要的內容1</div>
<div id="test-2">需要的內容2</div>
<div 
 id="testfault">需要的內容3</div>

<div id="tiger">
    我左青龍，
    <span id="tiger2">
        右白虎，
        <ul>
            上朱雀，
            <li>下玄武。</li>
        </ul>
        老牛在當中，
    </span>
    龍頭在胸口。
</div>

<div id="test-3">美女,
    <font color=red>你的微信是多少？</font>
</div>

</body>
</html>

使用XPath對相關內容的提取

# -*- coding: utf-8 -*-
from lxml import etree
f = open('text.html', 'r',encoding="utf-8")
html = f.read()
#print (html)
f.close()

selector = etree.HTML(html)

selector.xpath提取後為list

#提取單個文字
content = selector.xpath('//div[@id="test-0"]/text()')
print (content)

[‘大家好！’]

#提取多個文字
content = selector.xpath('//ul[@id="useful"]/li/text()')
print (content)
for each in content:
    print (each)

結果為：
這是第一條資訊
這是第二條資訊
這是第三條資訊

#提取屬性
link = selector.xpath('//a/@href')
for each in link:
    print (each)

#提取title
title = selector.xpath('//a/@title')
print (title[0])

結果為：
極客學院課程庫

# 以相同的字元開頭 starts-with(＠屬性名稱，屬性字元相同部分)
content = selector.xpath('//div[starts-with(@id,"test")]/text()')
for each in content:
    print (each)

結果為：
大家好！
需要的內容1
需要的內容2
需要的內容3
美女,

#標籤套標籤,取出所有的標籤
data = selector.xpath('//div[@id="test-3"]')[0]
info = data.xpath('string(.)')
info=str(info)# info為<class 'lxml.etree._ElementUnicodeResult'>，轉為字元
content=" ".join(info.split())
print (content)

data = selector.xpath('//div[@id="tiger"]')[0]
info = data.xpath('string(.)')
info=str(info)# info為<class 'lxml.etree._ElementUnicodeResult'>，轉為字元
content=" ".join(info.split())
print (content)

結果為：
美女, 你的微信是多少？
我左青龍，右白虎，上朱雀，下玄武。老牛在當中，龍頭在胸口。

注：這裡我將list轉為str。網上有許多其他方法加extract()我嘗試後，發現均出錯。
另外，發現網上的程式碼有問題。

data = selector.xpath('//div[@id="test3"]')info = data.xpath('string(.)').extract()[0]
這樣，就可以把“我左青龍，右白虎，上朱雀，下玄武。老牛在當中，龍頭在胸口”整個句子提取出來，賦值給info變數。

在IDE中直接測試

from lxml import etree
text="""
    <div class="bd doulist-subject">
        <div class="source">
            來自：豆瓣讀書
        </div>

        <div class="post">
            <a href="https://book.douban.com/subject/10519369/" target="_blank">
                <img width="100" src="https://img1.doubanio.com/lpic/s8869768.jpg">
            </a>
        </div>

        <div class="title">
            <a href="https://book.douban.com/subject/10519369/" target="_blank">
                萬物生光輝
            </a>
        </div>

        <div class="rating">
            <span class="allstar50"></span>
            <span class="rating_nums">9.4</span>
            <span>(738人評價)</span>
        </div>

        <div class="abstract">
        "
                作者: [英] 吉米·哈利
        <br>
        "
                出版社: 中國城市出版社
        <br>
        "
                出版年: 2012-3
            "
        </div>
    </div>

    """

selector = etree.HTML(text)

title = selector.xpath('//div[@class="title"]/a/text()')
title=title[0]
title=title.replace(" ","").replace("\\n","").replace("\\r","")
title=title.strip()
print (title)

rate = selector.xpath('//span[@class="rating_nums"]/text()')
rate=rate[0]
rate=rate.replace(" ","").replace("\\n","").replace("\\r","")
print (rate)

author = selector.xpath('//div[@class="abstract"]/text()')
author=author[0]
author=author.replace(" ","").replace("\\n","").replace("\\r","").replace('"',"")
author=author.strip()
print (author)

lxml解析html時，檢驗XPath

這兩天在研究Scrapy，在遇到用Xpath提出時，需要有Chrome的XPath helper，但老是出現錯誤。廢話少說，還是先把測試網頁儲存到本地，逐步的測試提取。測試文字text.html <!DOCTYPE html> <

thymeleaf 解析html時，出現 SAXParseException: The content of elements must consist of well-formed characte

00:46:32.733 [http-apr-8080-exec-7] ERROR o.t.templateparser.ErrorHandler - [THYMELEAF][http-apr-8080-exec-7] Fatal error during parsing

python requests爬蟲使用lxml解析HTML獲取資訊不對等的問題

python requests爬蟲使用lxml解析HTML獲取資訊不對等的問題我們在用lxml解析HTML文字時，有時會碰到“<”p“>”標籤有換行“<“br”>”的情況，如果我們用獲取xpath的方法，迴圈獲得該元素下的所有text()文字，同一個“<

Java用POI讀取解析Excel時，遇到科學計數法的解決方法

在匯入excel2003或者2007的時候難免會遇到某些單元格雖然是文字數字，但是使用java的poi來解析時會出現科學計算形式，下面我們看怎麼去掉這種格式，以文字來顯示: 1、導包 <!-- https://mvnrepository.com/artifact/org.apa

關於使用jackson.jar解析JSON時，大寫JSON key值發生報錯的問題

最近在專案中呼叫.NET的服務時，Jackson在解析返回的json字串時始終報錯，糾結很久之後才找到原因，原來是是由於json字串中的字母都是首字母大寫，導致jackson找不到相應的KEY。解決方法有兩種：直接將bean物件中的屬性改為public

openOfficeConnection 在linux環境下word excel轉html時，中文檔名無法識別問題

一，發現問題 :在windows環境中文的檔案都可以識別併成功轉換成html，但是到了linux環境，就一致報錯，錯誤資訊為Caused by: com.sun.star.lang.IllegalArgumentException: URL seems to be an u

用markdown.js解析markdown時，設定圖片大小

markdown設定圖片大小打算在網頁上顯示.md文件，發現可以用markdown.js實現，具體看這篇文章：實現網頁客戶端實時自動解析Markdown為HTML內容可是發現不能調整圖片大小，好像markdown本身就沒有考慮這個問題。要麼找

Gson解析Json時，欄位名一定要完全一樣，連空格都不能有

今日除錯的時候發現上報的資料明明有這一項，但是一直解析出來為NULL{"aaa ":101}public class AAA{ private Integer aaa;set方法get方法}Gson解析出來後一直是null。查了好久才發現了尾部的這個空格將json修改為

XML+XSL輸出HTML時，直接將XML輸出為HTML的2種方法

test.xml： <?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="test.xsl"?><root> <html1><div><img

lxml解析庫的安裝及XPath使用

安裝lxmlpip3 install lxmlXPath是一門可以在XML和HTML文件中查詢資訊的語言常用規則nodename 讀取次節點的所有子節點 xpath('span') 選取span元素的所有子節點從根節點上選取div節點/

解決PyCharm下python使用XPath解析html，獲取文字時中文為亂碼問題

最近在學習XPath解析庫，但是獲取中文文字時總是亂碼，網上看了些教程，然並卵，最後只好自己解決：文字檔案html.txt如下： <p class="name"> <a href="/films/1297" title="肖申克的救贖" d

Python爬蟲解析htm時lxml的HtmlElement對象獲取和設置inner html方法

3.6 The target 接口導入模塊查找內容 XML encoding Python的lxml是一個相當強悍的解析html、XML的模塊，最新版本支持的python版本從2.6到3.6，是寫爬蟲的必備利器。它基於C語言庫libxml2 和 libxslt，進行了

Docx4j將html轉成word時，br標簽為軟回車的問題修改

peek aras -i lin 位置 org pac 回車 tco docx4j版本：3.0.1 修改jar包：docx4j-ImportXHTML maven配置為：具體代碼位置：\org\docx4j\convert\in\xhtml\XHTMLImporterIm

Python通過lxml庫遍歷xml通過xpath查詢（標簽，屬性名稱，屬性值，標簽對屬性）

style 去掉 odi 之間 [] 符號層次結構 div amp xml實例：版本一： <?xml version="1.0" encoding="UTF-8"?><country name="chain"><provinces>

在express3裏用ejs模版引擎時，如何使其支持'.html'後綴

模板 span clu 如何自動 runnable str targe pretty ①express 默認jade模板，改為ejs模板，需執行以下命令：　　express -e --ejs ②在app.js中，將 app.set(‘view engine‘, ‘jad

如何在項目啟動時，加載或解析某配置文件

簡單 err 文件配置文件監聽器 ted ride rate servle 在web項目中有很多時候需要在項目啟動時就執行一些方法，而且只需要執行一次，比如：加載解析自定義的配置文件、初始化數據庫信息等等，在項目啟動時就直接執行一些方法，可以減少很多繁瑣的操作。　　在

sublim text3快速生成html代碼時，tab鍵失效問題

ext3 ges idt 證明 tab 個人發現狀態切換 nbsp sublime text3是一款非常強大的文本編輯器，個人覺得做前端的話這款工具很好用。便攜，秒啟。唯一讓我覺得不是特別爽的就是插件啊，都需要自己安裝。不過瑕不掩瑜，這款編輯器是很適合開發前端和PHP的

xpath抓取的值有時，去掉的方法

col normalize normal 方法註意 post tro -s spa 解決辦法： normalize-space（）例子：原來的xpath為： user=selector.xpath(‘//*[@id="Con"]/tr[1]/th/text

xpath解析html標簽

odin 單元 xpath AD filename fault imp default 創建最近忙一個需求：把一個字符串形式的html文檔轉化成excel。分解需求： ① 實現語言 ———— python ② html解析 ———— 用 lxml

（轉）html 表單提交時，無法獲取到disabled屬性的input值

有效 AS 單元 java check bsp ado 控件下拉框 input的字段當為disabled是，無法獲取值，無法改變值，所以在表單提交時，獲取不到值。可以用randomly解決這個問題。 <input name="country" id="countr

lxml解析html時，檢驗XPath

測試文字text.html

使用XPath對相關內容的提取

在IDE中直接測試

相關推薦