資料解析之XPath & lxml庫

阿新 • • 發佈：2019-01-10

XPath

定義

即XML路徑語言(XML Path Language)，是一種用來確定XML文件中某部分位置的語言，它基於XML的樹狀結構，提供在資料結構樹中尋找節點的能力，也適用於HTML文件中；

開發工具
- Chrome
  在Chrome的應用商店搜尋XPath Helper，然後安裝這個外掛即可；
- Firefox
  同樣的方式，在應用中心查詢XPath Checker，然後安裝這個外掛即可，由於未使用Firefox，便不再演示；
語法
- 節點選取

表示式	描述	示例
nodename	選詞當前節點下節點的所有子節點	div
/	若在最前，則表示從根節點開始選取，否則選擇某節點下的某個節點	/div
//	從全域性節點中選取某一節點所在所有位置	//div
@	選取某一節點屬性	//div[@color]

謂語

路徑表示式	描述
/markstore/mark[1]	選取markstore下第一個元素
/markstore/mark[last()]	選取markstore下倒數第二個mark元素
markstore/mark[position()<5]	選取markstore下前四個子元素
//mark[@id]	選取擁有id的mark元素
//mark[@id=‘k’]	選取id屬性為k的mark元素

萬用字元

萬用字元	描述
*	匹配任意節點
@*	匹配節點中的任意屬性

注意事項

使用方式：//獲取當前頁面所有元素，然後寫標籤名，最後寫謂詞進行提取；
/和//的區別：/代表只獲取直接子節點，//代表獲取子孫節點；

lxml庫

安裝

使用如下命令安裝即可，

pip install lxml

使用

from lxml import etree

text = '''
<div>
    <ul>
        <li class="id-1"><a href="www.baidu.com">baidu</a></li>
        <li class="id-2"><a href="www.google.com">Google</a></li>
    </ul>
</div>
''' 

# 解析字串為html文件
html = etree.HTML(text)
# 字串序列化為html文件
result = etree.tostring(html, encoding='utf-8')
print(result.decode('utf-8'))

# 從檔案讀取
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse('csdn.html', parser=parser)

# 獲取所有a標籤的href屬性
aList = html.xpath('//a/@href')
for a in aList:
    print(a)

總結

本文主要介紹了爬蟲中資料解析時所需要的用的XPath和lxml庫，介紹了它們的安裝方式和簡單的使用方式，如果你有更好的建議和想法，歡迎留言指正。

資料解析之XPath & lxml庫

XPath 定義即XML路徑語言(XML Path Language)，是一種用來確定XML文件中某部分位置的語言，它基於XML的樹狀結構，提供在資料結構樹中尋找節點的能力，也適用於HTML文件中；開發工具 Chrome 在Chrome的應用

數據解析之Xpath解析

htm 文本 from ctrl start [1] 本地文件 title 拖動一，Xpath基本語法安裝使用： 1.下載：pip install lxml 2.導包：from lxml import etree 3.將html文檔或者xml文檔轉換成一

資料結構之C++STL庫

使用STL實現迭代器 #include<iostream> #include<vector> using namespace std; void print(vector<int> v) { //從向量開頭順次訪問 vector<int

資料提取之xpath

xpath中節點選擇的工具 Chrome外掛 XPath Helper 把檔案的字尾名crx改為rar，然後解壓到xpath_.... 把解壓後的資料夾拖入到已經開啟開發者模式的chrome瀏覽器擴充套件程式介面重啟瀏覽器 Firefox外掛 XPa

《第一行程式碼》第二版學習總結15 資料持久化之LitePal開源庫的基本使用

最近利用下班時間，找了看什麼書比較適合初學android的朋友，很多人推薦了這本書，於是就買了一本，感覺看書，思考，動手，再思考和總結這樣過程還是很有必要的，於是就打算把自己學習的東西簡單的總結一下；方便自己以後查詢，也有利於學習的鞏固。在這裡首先要感謝一下書籍的

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

python爬蟲之xpath和lxml解析內容

上兩章說了urllib和request庫如何訪問一個頁面或者介面，從而獲取資料，如果是訪問介面，還好說，畢竟返回的json還是很好解析的，他是結構化的，我們可以把它轉化成字典來解析，但是如果返回的是xml或者html,就有點麻煩了，今天就主要說一下如果解析這些h

效能比較：lxml庫,正則表示式，BeautifulSoup ，用資料證明lxml解析器速度快

Beautiful Soup支援的解析器解析器使用方法優勢劣勢 Python標準庫 BeautifulSoup(markup, "html.parse

scrapy解析庫之Xpath( Selectors)

#1 //與/ #2 text #3、extract與extract_first:從selector物件中解出內容 #4、屬性：xpath的屬性加字首@ #4、巢狀查詢 #5、設定預設值 #4、按照屬性查詢 #5、按照屬性模糊查詢 #6、正則表示式 #7、xpath相對路徑 #8、帶變數的xpath

python在lxml中使用XPath語法進行#資料解析

在lxml中使用XPath語法：獲取所有li標籤： from lxml import etree html = etree.parse('hello.html') print type(html) # 顯示etree.parse() 返回型別 result = html.xpath('//li')

Python爬蟲之Xpath與lxml庫的用法

XPath 是一門在 XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航。在學習之前應該具備的知識：在您繼續學習之前，應該對下面的知識有基本的瞭解： HTML / XHTML XML / XML 名稱空間

Python通過lxml庫遍歷xml通過xpath查詢（標簽，屬性名稱，屬性值，標簽對屬性）

style 去掉 odi 之間 [] 符號層次結構 div amp xml實例：版本一： <?xml version="1.0" encoding="UTF-8"?><country name="chain"><provinces>

python之路_day107_django中url反向解析及數據庫連接

rom 連接遷移 data spa mysq height port ack 一、url反向解析　　在正式介紹反向解析之前，我們首先介紹一下在django中的url參數，如下為我們url實例，其中name參數就是其別名，也就是我們接下來講解的反向解析中所依靠的參數。

分布式之數據庫和緩存雙寫一致性方案解析

讀寫分離 CA 試圖並不是設有 image 性能 stat 延時引言為什麽寫這篇文章？首先，緩存由於其高並發和高性能的特性，已經在項目中被廣泛使用。在讀取緩存方面，大家沒啥疑問，都是按照下圖的流程來進行業務操作。但是在更新緩存方面，對於更新完數據庫，是更新緩存

布式之數據庫和緩存雙寫一致性方案解析（轉）

一段時間其他 wechat 偽代碼 sql 讀寫適合 scene mage 引言為什麽寫這篇文章？首先，緩存由於其高並發和高性能的特性，已經在項目中被廣泛使用。在讀取緩存方面，大家沒啥疑問，都是按照下圖的流程來進行業務操作。但是在更新緩存方面，對於更新完數據庫，是更

大資料基礎之Quartz（1）簡介、原始碼解析

一簡介官網 http://www.quartz-scheduler.org/ What is the Quartz Job Scheduling Library? Quartz is a richly featured, open source job scheduling libra

資料結構之伸展樹個人筆記伸展樹(一)之圖文解析和 C語言的實現

閱讀了skywang的伸展樹的講解，覺得講的很不錯，再次也推薦大家無論是新手還是老手都可以去閱讀下。 ----------------------------------------------------------------------------------------- 伸展樹(一)之圖文

MyBatis源碼解析之數據源（含數據庫連接池簡析）

概述 myba 源碼 conn java 初始對象狀態 lis 為什麽一.概述：常見的數據源組件都實現了javax.sql.DataSource接口； MyBatis不但要能集成第三方的數據源組件，自身也提供了數據源的實現；一般情況下，數據源的初始化過程參數較多，比

Spark——Streaming原始碼解析之資料的產生與匯入

此文是從思維導圖中匯出稍作調整後生成的，思維腦圖對程式碼瀏覽支援不是很好，為了更好閱讀體驗，文中涉及到的原始碼都是刪除掉不必要的程式碼後的虛擬碼，如需獲取更好閱讀體驗可下載腦圖配合閱讀：此博文共分為四個部分： DAG定義 Job動態生成資料的產生與匯入容錯資料的產生與匯入主要分為以下五個部分

資料結構圖文解析之：樹的簡介及二叉排序樹C++模板實現.

閱讀目錄 0. 資料結構圖文解析系列 1. 樹的簡介 1.1 樹的特徵 1.2 樹的相關概念 2. 二叉樹簡介 2.1 二叉樹的定義 2.2 斜樹、滿二叉樹、完全二叉樹、二叉查詢樹 2

資料解析之XPath & lxml庫

XPath

定義

開發工具

語法

注意事項

lxml庫

安裝

使用

總結

相關推薦