xpath解析html

阿新 • • 發佈：2019-04-26

路徑 enter div ref col href 運算符 ddl 字符

XPath

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，並且 XQuery 和 XPointer 都構建於 XPath 表達之上。

在爬蟲中主要用於對html進行解析

要解析的html:

from lxml import etree

# 要解析的html標簽
html_str = """
<li data_group="server" class="content"> 
    <a href="/commands.html" class="index" name="a1">第一個a標簽</a>
    <a href="/commands.html" class="index2" name="a2">第二個a標簽</a>
    <a href="/commands/flushdb.html">
        <span class="first">
            這是第一個span標簽
            <span class="second">
            這是第二個span標簽,第一個下的子span標簽
            </span>
        </span>
        <span class="third">這是第三個span標簽</span>
        <h3>這是一個h3</h3>
    </a></li>
 
"""

1. 對文件進行讀取解析操作

# 解析xpath.html文件
html = etree.parse(‘xpath.html‘)
print(html, type(html))  # <lxml.etree._ElementTree object at 0x00000141445A08C8> <class ‘lxml.etree._ElementTree‘>
a = html.xpath("//a")
print(a, type(a))  # [<Element a at 0x141445a0808>, <Element a at 0x141445a0908>, <Element a at 0x141445a0948>] <class ‘list‘>

2. 找標簽的屬性信息

# 找到所有a標簽的href和text
a = html.xpath("//a")
a_href = html.xpath("//a/@href")
a_text = html.xpath("//a/text()")
print(a, type(a))   # [<Element a at 0x191c1691888>, <Element a at 0x191c1691848>, <Element a at 0x191c1691948>] <class ‘list‘>
print(a_href, type(a_href))  # 
 [‘/commands.html‘, ‘/commands.html‘, ‘/commands/flushdb.html‘] <class ‘list‘>
print(a_text, type(a_text), len(a_text))

3. 找到指定的標簽

# 找到class="first"的span標簽
span_first = html.xpath("//span[@class=‘first‘]")
span_first_text = html.xpath("//span[@class=‘first‘]/text()")
print(span_first, type(span_first))   # [<Element a at 0x191c1691888>, <Element a at 0x191c1691848>, <Element a at 0x191c1691948>] <class ‘list‘>
print(span_first_text, type(span_first_text))  # [‘這是第一個span標簽\n\t\t‘, ‘\n\t‘] <class ‘list‘>
# 找到第二個a標簽
a_second = html.xpath("//a")[1]
# print(a_second, type(a_second))    # <Element a at 0x23844950808> <class ‘lxml.etree._Element‘>
a_second_text = a_second.text
# ### a_second_t = a_second.get_text
# ###print(a_second_t)
print(a_second_text, type(a_second_text))   # 第二個a標簽 <class ‘str‘>
a_second_href = a_second.get("href")
print(a_second_href)  #  /commands.html

4. 處理子標簽和後代標簽

# 找到li標簽下的a標簽下的所有span標簽
span_all = html.xpath("//li/a//span")
print(span_all, type(span_all), len(span_all))
# [<Element span at 0x2d9dcd18888>, <Element span at 0x2d9dcd18988>, <Element span at 0x2d9dcd189c8>] <class ‘list‘> 3
# 找到li標簽下的a標簽下的span標簽
span = html.xpath("//li/a/span")
print(span, type(span), len(span))
# [<Element span at 0x188548118c8>, <Element span at 0x18854811a08>] <class ‘list‘> 2

路徑表達式

表達式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

匹配屬性

通配符	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何類型的節點。

XPath運算符

運算符	描述	實例	返回值
\|	計算兩個節點集	//book \| //cd	返回所有擁有 book 和 cd 元素的節點集
+	加法	6 + 4	10
–	減法	6 – 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等於	price=9.80	如果 price 是 9.80，則返回 true。如果 price 是 9.90，則返回 false。
!=	不等於	price!=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
<	小於	price<9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
<=	小於或等於	price<=9.80	如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
>	大於	price>9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
>=	大於或等於	price>=9.80	如果 price 是 9.90，則返回 true。如果 price 是 9.70，則返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，則返回 true。如果 price 是 9.50，則返回 false。
and	與	price>9.00 and price<9.90	如果 price 是 9.80，則返回 true。如果 price 是 8.50，則返回 false。
mod	計算除法的余數	5 mod 2	1

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　xpath文檔

問題如何區別 a_second_2 = html.xpath("//li/a/text()")[1] a_second_1 = html.xpath("//li/a[1]/text()")

a_second_2 = html.xpath("//li/a/text()")[1]
a_second_1 = html.xpath("//li/a[1]/text()")
print(a_second_2, a_second_1)   # 第二個a標簽 [‘第一個a標簽‘]

"""
可以看到a_second_2打印的是 第二個a標簽
可以看到a_second_1打印的是 第一個a標簽
xpath()方法返回的是一個列表類型
a_second_1表示找到li標簽下第一個a標簽的文本, 返回的是一個列表
a_second_2表示li標簽下的a標簽下的所有文本第二個
"""

"""
打印每個a標簽的文本
html.xpath("//li/a[1]/text()")   html.xpath("//li/a[2]/text()")  html.xpath("//li/a[3]/text()")  沒有list為空
[‘第一個a標簽‘]                  [‘第二個a標簽‘]                  [‘\n\t‘, ‘\n\t‘, ‘\n\t‘, ‘\n\t‘]
html.xpath("//li/a/text()")
[‘第一個a標簽‘, ‘第二個a標簽‘, ‘\n\t‘, ‘\n\t‘, ‘\n\t‘, ‘\n\t‘]
可以發現當a標簽下有其它標簽時會把\n\t字符也加入到列表中
"""

xpath解析html

xpath解析html標簽

odin 單元 xpath AD filename fault imp default 創建最近忙一個需求：把一個字符串形式的html文檔轉化成excel。分解需求： ① 實現語言 ———— python ② html解析 ———— 用 lxml

解決PyCharm下python使用XPath解析html，獲取文字時中文為亂碼問題

最近在學習XPath解析庫，但是獲取中文文字時總是亂碼，網上看了些教程，然並卵，最後只好自己解決：文字檔案html.txt如下： <p class="name"> <a href="/films/1297" title="肖申克的救贖" d

python xpath 解析html--下、下

用xpath來解析一般標籤都很簡單，因為大多數到可以找到class或者是id等屬性，確定一類情況。但是<table>下有多個<tb>，<ul>下有多個<li>，而且還沒有屬性，類似這種：解決辦法：第一種：用etree.HTML(

Python中利用xpath解析HTML

1 import codecs 2 from lxml import etree 3 f=codecs.open("ceshi.html","r","utf-8") 4 content=f.read() 5 f.close() 6 tree=etree.HTML(content) etree提供了HTM

Java下使用xpath解析html檔案

這段時間一直在網路上扒取資料，為了方便就用到了xpath，一開始使用真的是挺難的，不過用用就好了，但是網上的資源少之又少，所以自己就寫個部落格把～～～首先需要下載三個jar包 nekohtml.jar xalan.jar xerceslmpl.jar 在下面的這

xpath解析html

路徑 enter div ref col href 運算符 ddl 字符 XPath XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，並且 XQuery 和 X

（最全）Xpath、Beautiful Soup、Pyquery三種解析庫解析html 功能概括

獲取信息 file 取數 hang desc previous lib 則表達式 panel 一、Xpath 解析 ? xpath：是一種在XMl、html文檔中查找信息的語言，利用了lxml庫對HTML解析獲取數據。 Xpath常用規則： &ensp; noden

lxml解析html時，檢驗XPath

這兩天在研究Scrapy，在遇到用Xpath提出時，需要有Chrome的XPath helper，但老是出現錯誤。廢話少說，還是先把測試網頁儲存到本地，逐步的測試提取。測試文字text.html <!DOCTYPE html> <

通過使用jsoup解析html,繪畫表格生成execl文件

num group wid 字符 for format 格式 colspan tables 1.獲取文件或者字符設置繪畫表格字符編碼 //得到Document並且設置編碼格式 public static Document getDoc(String fileNam

python 解析html網頁

class find() [] index file 字符 .com 查找 cto pyquery庫是jQuery的Python實現，可以用於解析HTML網頁內容，使用方法：代碼如下: from pyquery import PyQuery as pq 1、可加載一段H

Android解析HTML網頁數據第一個方法Jsoup（一）

原生日誌 href attr mage connect auto htm baidu 最近發現一些無聊的東西，就是抓取網頁上的數據，然後使用安卓原生代碼顯示出來，或者說借用網頁數據，用自定義的View顯示。借助jsoup-1.10.2.jar庫，獲取並解析數據。（Jso

jericho解析html

jericho解析html1.導入jar包2.實現源代碼package com.zhishang.lucene; import net.htmlparser.jericho.Element; import net.htmlparser.jericho.HTMLElementName; import net.

使用C#和HtmlAgilityPack解析HTML

load() 需要有一個 Coding -c href .net tar doc 　　近期，有一個需求，需要解析HTML頁面，讀取一些需要的數據後，插入本地數據庫。我知道可以通過正則表達式實現，然而正則表達式之於我，就像匯編語言之於我，一樣。我知道它是幹什麽的，我也知道它

Beautiful Soup 解析html表格示例

decode rip erro bs4 import bsp exe port pdf from bs4 import BeautifulSoup import urllib.request doc = urllib.request.urlopen(‘http://www

php解析html類庫simple_html_dom

響應過多 echo 記得正則下載 int curl sse 下載地址：https://github.com/samacs/simple_html_dom解析器不僅僅只是幫助我們驗證html文檔；更能解析不符合W3C標準的html文檔。它使用了類似jQuery的元素選擇

關於瀏覽器解析html全過程詳解

col 頁面 def 動態 lib href web 圖片使用本人web前端菜鳥一枚，第一次在這裏發博客梳理知識，知識都是從各地方查閱引用以及自己的理解得來，有什麽錯誤的地方歡迎指正。 DOM文檔通常加載的步驟： 1.解析HTML結構。 2.加載外部腳本和樣式表文

Java解析html頁面,獲取想要的元素

parse tails src www 標準 pro 1.8 com 9.png 背景:通過接口訪問數據，獲取的內容是個標準的html格式，使用jsoup的方式獲取頁面元素值先推薦比較好的博客：http://www.open-open.com/jsoup/、單個案例比較

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

微信小程序解析html

tex ima padding add 加載 abi tps 項目目錄 databind 1.下載wxParse：https://github.com/icindy/wxParse並拷貝到項目目錄下與pages同級即可2.在app.wxss全局樣式頭部引入wxParse.w

微信小程序使用wxParse解析html

樣式新聞 hub req efi 上下文件中 div github上轉:http://www.jianshu.com/p/3de027555e77 最近項目上遇到在微信小程序裏需要顯示新聞內容，新聞內容是通過接口讀取的服務器中的富文本內容，是html格式的，小程序默認

xpath解析html

XPath

路徑表達式

匹配屬性

XPath運算符

問題 如何區別 a_second_2 = html.xpath("//li/a/text()")[1] a_second_1 = html.xpath("//li/a[1]/text()")

相關推薦

問題如何區別 a_second_2 = html.xpath("//li/a/text()")[1] a_second_1 = html.xpath("//li/a[1]/text()")