Xpath解析

阿新 • • 發佈：2021-02-05

xpath解析：最常用且比較便捷的一種解析方式。通用性

xpath解析原理：
- –1.例項化一個etree物件，且將且需要將解析的頁面的資料載入到該物件中。
- –2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲。
環境的安裝
- 1.cmd方法
  pip install lxml
- 直接在pycharm中直接安裝（更簡單）
如何例項化一個物件
- –1.將本地文件中的原始碼載入帶etree物件中：
  etree.parse(‘fileName’)
- –2.可以從網際網路上獲取的原始碼載入到該物件中
  etree.HTML(‘fileName’)
- – 3.xpath表示式
xpath表示式（重點）
- — /：表示的是從根節點開始定位。表示是一個層級。
  r = tree.xpath(’/html/div/p’)
- — //：表示的是多個層級。可以表示從任意位置開始定位。
  #r = tree.xpath(’//p’)
  #r = tree.xpath(’/html//p’)
- —屬性定位：
  //div[@class=‘song’] ---->tag[@attrName=“attrValue”]
- — 索引定位：
  //div[@class=“song”]/p[3] 索引是從1開始的。
- — 取文字：
  - /text() 獲取的是標籤中直系的文字內容
  - //text() 標籤中非直系的文字內容（所有的文字內容）
- — 取屬性：
  /@attrName ==>img/src
  r = tree.xpath(’//div[@class=“tang”]//li[3]/a/@href’)[0]

例子：

from lxml import etree
if __name__ == "__main__":
    tree = etree.parse('test.html')
    #r=tree.xpath('/html/head/)
    #r = tree.xpath('/html//p')
    #r = tree.xpath('//p')
    r = tree.xpath('//div[@class="tang"]//li[3]/a/@href' 
)[0]
    print(r)

例項1：58同城

import requests
from lxml import etree
if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
    }
    url='https://zz.58.com/ershoufang/?PGTID=0d200001-0015-6095-00a5-32e38bd5575e&ClickID=1'
    response = requests.get(url=url,headers=headers).text
    li_list = etree.HTML(response)
    list_all=li_list.xpath('//div[@class="property-content"]')
    fp = open('58.txt', 'w', encoding='utf-8')
    for list in list_all:
        title = list.xpath('./div[@class="property-content-detail"]//h3/text()')[0]
        money= list.xpath('./div[@class="property-price"]/p/span[@class="property-price-total-num"]/text()')[0]
        print(title,money+"萬")
        fp.write(title)
        fp.write(money+"萬"+"/n")

案例2：全國城市名字

import requests
from lxml import etree
if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
    }
    url='https://www.aqistudy.cn/historydata/'
    City_list = requests.get(url=url,headers=headers).text
    tree = etree.HTML(City_list)
    city_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')
    ALL_city=[]
    for a in city_list:
        city_N = a.xpath('./text()')[0]
        ALL_city.append(city_N)
    print(ALL_city,len(ALL_city))

其中’//div[@class=“bottom”]/ul/li/a | //div[@class=“bottom”]/ul/div[2]/li/a’重點，兩者皆可以。

關於python中的xpath解析定位

爬取的網站：http://jbk.39.net/chancegz/ 這裡只針對個別屬性值： #例如：\'別名\'下的span標籤文字，‘發病部位\'下的span標籤文字以及‘掛號科室‘下的span標籤文字

Xpath解析不規則節點XML

Xpath解析不規則節點XML 由於工作上要解析壓縮報文，由於節點是不規則的例如：

requests模組 & xpath解析庫

1.requests模組介紹 # requests模組介紹對比:urllib使用麻煩安裝: pip install requests # 初體驗: 爬取搜狗首頁

xpath解析資料（爬取全國城市名稱）

技術標籤：pythonpythonxpathhtml資料分析目標網站：https://www.aqistudy.cn/historydata/ # 開發時間：2020/12/27 22:00

[ python] 爬蟲筆記（五) 資料解析之xpath解析

技術標籤：爬蟲學習筆記pythonxpath爬蟲聚焦爬蟲爬取頁面中指定的內容編碼流程：指定url——發起請求——獲取響應資料——資料解析——進行持久化儲存

xpath解析案例-爬取站長素材中免費簡歷模板

技術標籤：爬蟲xpathjs爬蟲 xpath解析：最常用且最便捷高效的一種解析方式。通用性。

Xpath解析

技術標籤：python爬蟲 xpath解析：最常用且比較便捷的一種解析方式。通用性 xpath解析原理：

C#Xpath解析HtmlDocument的使用方法與遞迴取得頁面所有標籤xpath值（附原始碼）

引用：https://www.cnblogs.com/wangchuang/archive/2013/03/11/2953638.html 在學習HTML Xpath之前呢我們先來下載一下Dll檔案

Python中xpath解析

目錄簡介安裝本文示例的html程式碼使用例項化etreexpth表示式定位根據層級定位根據屬性進行定位根據id進行定位根據索引號進行定位取值獲取文字獲取屬性例項

python爬蟲-xpath解析

前言 xpath解析方式可以說是最常用最便捷高效的一種解析方式了。而且具有很高的通用性。

python爬蟲學習（六）：xpath解析

xpath解析原理： - 1.例項化一個etree的物件，且需要將被解析的頁面原始碼資料載入到該物件中。

XML之dom4j的xpath解析

簡介： XPath 可用來在 XML 文件中對元素和屬性進行遍歷。參考文件： https://www.w3cschool.cn/xpath/xpath-syntax.html

python xpath 解析網頁常用方法總結

python xpath解析網頁用到的是lxml庫，lxml的使用方法可以官方文件 http://lxml.de/lxmlhtml.html

python使用lxml的xpath解析xml

1、安裝lxml 注意xml.etree.ElementTree也支援部分xpath，但是非常有限，只有如下：可以使用lxml模組，這個模組是ElementTree的升級版，但是需要安裝，ElementTree是內建不用安裝

PHP xpath提取網頁資料內容程式碼解析

想要使用xpath來解析html內容,PHP自帶兩個物件 DOMDocument，DOMXpath，其中初始化 loadHtml一般都會報很多警告，但是並不影響使用，用@遮蔽錯誤。

解析庫--XPath

from lxml import etree 2 text = \'\'\' 3 <div> 4 <ul> 5 <li class = \"item-0\"><a herf = \"link1.html\">first item</a></li>

【python實訓】HTML解析---正則、bs庫與xpath

技術標籤：python正則表示式xpath HTML解析—正則、BeautifulSoup庫與XPath方法我們可以使用requests模擬請求，拿到網頁的原始碼html格式的字串，但需要進行解析，找到指定內容，可以使用python中有自帶的find方

python解析頁面DOM樹形成xpath列表，並計算DOM樹的最大深度

## 參考 [(14條訊息) python解析頁面DOM樹形成xpath列表，並計算DOM樹的最大深度_Together_CZ的部落格-CSDN部落格](https://blog.csdn.net/Together_CZ/article/details/73718463 )]

Python解析庫lxml與xpath用法總結

本文主要圍繞以xpath和lxml庫進行展開：一、xpath 概念、xpath節點、xpath語法、xpath軸、xpath運算子

Python爬蟲——使用XPath和lxml庫解析HTML

目錄 0 安裝 XPath Helper 外掛 1 XPath 語法 1.1 節點 1.2 謂語 2 lxml 庫使用例項 2.1 解析字串為 HTML

Xpath解析

相關推薦