Python之爬蟲-- XML與XPath

阿新 • • 發佈：2018-11-02

XML

XML(EXtensibleMarkupLanguage)
學習文件： http://www.w3school.com.cn/xml/index.asp
案例1
概念：父節點，子節點，先輩節點，兄弟節點，後代節點

案例1：

<?xml version="1.0" encoding="utf-8"?>

<bookstore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <author>Gidada De</author>
        <year>2018</year>
        <price>23</price>
    </book>

    <book category="education">
        <title lang="en">Python is Python</title>
        <author>Food War</author>
        <year>2008</year>
        <price>83</price>
    </book>

    <book category="sport">
        <title lang="en">Running</title>
        <author>Klaus Kuka</author>
        <year>2010</year>
        <price>43</price>
    </book>
	
</bookstore>

XPath（python爬蟲使用XPath解析頁面和提取資料）

一、簡介

XPath即為XML路徑語言，它是一種用來確定XML（標準通用標記語言的子集）文件中某部分位置的語言。XPath基於XML的樹狀結構，有不同型別的節點，包括元素節點，屬性節點和文字節點，提供在資料結構樹中找尋節點的能力。

二、什麼是 XPath?

XPath(XML Path Language), 是一門在XML文件中查詢資訊的語言
XPath 使用路徑表示式在 XML 文件中進行導航
XPath 包含一個標準函式庫

XPath 是 XSLT 中的主要元素
XPath 是一個 W3C 標準
官方文件： http://www.w3school.com.cn/xpath/index.asp
XPath開發工具：
- 開元的XPath表示式工具： XMLQuire
- chrome外掛： Xpath Helper
- Firefox外掛： XPath CHecker

三、使用xpath

1、匯入模組

#首先安裝庫 pip install lxml
import lxml
from lxml import etree

2、XPath Helper外掛

chrome外掛網：http://www.cnplugins.com/
GitHub下載:https://github.com/liangdongchang/tools
在谷歌瀏覽器添中加外掛
Ctrl + Shift + X開啟或關閉外掛

3、XPath 術語

節點（Node）

在 XPath 中，有七種型別的節點：元素、屬性、文字、名稱空間、處理指令、註釋以及文件（根）節點。XML 文件是被作為節點樹來對待的。樹的根被稱為文件節點或者根節點。

基本值（或稱原子值，Atomic value）

基本值是無父或無子的節點。

專案（Item）

專案是基本值或者節點。

節點關係

父（Parent）

每個元素以及屬性都有一個父。

子（Children）

元素節點可有零個、一個或多個子。

同胞（Sibling）

擁有相同的父的節點

先輩（Ancestor）

某節點的父、父的父，等等。

後代（Descendant）

某個節點的子，子的子，等等

4、選取節點

XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。下面列出了最有用的路徑表示式：

表示式	描述
/	從根節點選取。
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。
nodename	選取此節點的所有子節點

案例：

路徑表示式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜槓( / )，則此路徑始終代表到某元素的絕對路徑！
/bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文件中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。
//@lang	選取名為 lang 的所有屬性。

5、謂語（Predicates）

謂語用來查詢某個特定的節點，被鑲嵌在方括號中或者包含某個指定的值的節點。在下面的表格中，我們列出了帶有謂語的一些路徑表示式，以及表示式的結果：

路徑表示式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=’cn’]	選取屬於bookstore下叫book的,含有屬性lang的值是cn的元素。
/bookstore/book[price<90]	選取屬於bookstore下叫book的,含有屬性price的，且值小於90的元素。
/bookstore/book[price<90]/title	選取屬於bookstore下叫book的,含有屬性price的，且值小於90的元素的子元素title。

6、萬用字元（選取未知節點）

XPath 萬用字元可用來選取未知的 XML 元素。

萬用字元	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何型別的節點。

在下面的表格中，我們列出了一些路徑表示式，以及這些表示式的結果：

路徑表示式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文件中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

7、選取多個路徑

通過在路徑表示式中使用”|”運算子，您可以選取若干個路徑。

在下面的表格中，我們列出了一些路徑表示式，以及這些表示式的結果：

路徑表示式	結果
//book/title \| //book/author	選取 book 元素的所有 title 和 author元素。
//title \| //price	選取文件中的所有 title 和 price 元素。
/bookstore/book/title \| //price	選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文件中所有的 price 元素。

8、XPath 例項

下面是在網上找到的一個小例子。

import lxml
from lxml import etree

html_doc = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
    <ul>
        <li id='l1' class="liClass">1</li>
        <li id='l2'>2</li>
        <li class="liClass">3</li>
        <li id='l4'>4</li>
        <li class="liClass">5</li>
    </ul>

    <div class="liClass">
    </div>
</body>
</html>
'''

mytree = lxml.etree.HTML(html_doc)
# ElementTree object
print(mytree)
print(mytree.xpath('/html/text()'))
print(mytree.xpath('/ul'))
# / 從根元素開始，相當於絕對路徑
print(mytree.xpath('/html/body/ul'))
# // 全域性搜尋，找到所有
print(mytree.xpath('//li'))
ul = mytree.xpath('//ul')
# . 當前
# 返回的都是列表，查詢到所有
li = ul[0].xpath('./li')
print(li)

for l in li:
    # 獲取屬性id的值 @id
    print(l.xpath('./@id'))

# 定位 /標籤[@屬性='值']
liClass = mytree.xpath("//li[@class='liClass']")
print(liClass)
# 判斷，@屬性='值' --->返回True或False
print(mytree.xpath("//li/@id='12'"))
print("===========================")
# 直接使用下標訪問，下標從1開始 獲取對個li裡面的文字
print(mytree.xpath('//li[2]/text()'))
# last()最後一個
print(mytree.xpath('//li[last()]/text()'))
# 倒數第二個
print(mytree.xpath('//li[last()-1]/text()'))
# position() 位置 > < = >= <=
print(mytree.xpath('//li[position()>1]'))
# * 通配
print(mytree.xpath('//*[@class="liClass"]'))
# 或 |
print(mytree.xpath('//li[@class="liClass"] | //div[@class="liClass"]'))

Python之爬蟲-- XML與XPath

XML XML(EXtensibleMarkupLanguage) 學習文件： http://www.w3school.com.cn/xml/index.asp 案例1 概念：父節點，子節點，先輩節點，兄弟節點，後代節點案例

Python之爬蟲-- etree和XPath實戰

下面程式碼是在網站上找到的一個例子，空閒的時候可以自己除錯。 # -*- coding:utf-8 -*- """ 爬蟲創業邦創業公司資訊爬取網頁url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0' 爬取頁面中的創業公司，

Python之進程與線程

分配不能 maxsize hid pan lex 解決地址空間對象一.進程 1.什麽是進程程序並不能單獨運行，只有將程序裝載到內存中，系統為它分配資源才能運行，而這種執行的程序就稱之為進程。程序和進程的區別就在於：程序是指令的集合，它是進程運行的靜態描述文本；進程

Python 之 new() 方法與實例化(轉)

啟動是否 copy 調用 def 得到互調沒有客戶 _new__() 是在新式類中新出現的方法，它作用在構造方法建造實例之前，可以這麽理解，在 Python 中存在於類裏面的構造方法 __init__() 負責將類的實例化，而在 __init__() 啟動之前，__

Python之線程與進程

調度 .py 關閉接口 har 出現控制 release pre 1.程序程序指的是指令的集合；程序不能單獨的運行，必須將程序裝載在內存中，系統給它分配資源才可以運行。程序是進程動態運行的靜態描述文本 2.進程進程指的是程序在數據集中一次動態運行的過程； 3.線程

自學python之爬蟲3股票數據爬蟲

trace _for 進行 cnblogs js代碼 encoding href slist 保存目標：獲取股票上交所和深交所所有股票的名稱和交易信息，保存在文件中使用到的技術：requests+bs4+re 網站的選擇（選取原則：股票信息靜態存在HTML頁面，非js代

Python之set集合與collections系列

update common ren date 原理 symmetric pda () http 1》set集合：是一個無序且不重復的元素集合；訪問速度快，解決了重復的問題；　　s2 = set(["che","liu","haha"]) 　

python-之名稱空間與作用域、閉包函數、嵌套函數

文件的執行文件全局 brush 名字查找在哪裏位置 opened tin 一、名稱空間與作用域名稱空間：存放名字的地方，準確的說名稱空間是存放名字與變量值綁定關系的地方內置名稱空間：在python解釋器啟動時產生，存放一些python內置的名字

day5-python之遞歸與二分法

是我自身 limit 棧溢出內存通過總結 pre fin 一、遞歸的定義遞歸調用是函數嵌套調用的一種特殊形式，函數在調用時，直接或間接調用了自身，就是遞歸調用二、遞歸分為兩個階段：遞推，回溯 age(5) = age(4) + 2 age(4

運維學python之爬蟲中級篇（五）數據存儲（無數據庫版）

就是 erro mage name 打印反序 lis object Circul 本篇主要介紹，爬取html數據後，將html的正文內容存儲為json或csv格式。 1 json格式存儲選定要爬取的網站後，我們利用之前學過的內容，如：Beautiful Soup、xpa

運維學python之爬蟲中級篇（七）Sqlite3

pro odin any /dev/ 裏的連接 oracle postgresq pycharm 前文已經講過無數據庫版本操作（csv，json），今天我們要開始講有數據庫版本的操作，首先就是sqlite3。 1 介紹 SQLite是一個C庫，它提供了一個輕量級的基於磁盤

運維學python之爬蟲中級篇（九）Python3 MySQL 數據庫連接

結束學python ofo 如何 res 2.7 獲取數據執行 mail 最近因為年底，連續兩個項目要投產上線，又趕上公司年會，忙的要死，更新有些慢，見諒。今天要說一說python如何對mysql進行操作。在 Python3.x 版本中用於連接 MySQL 服務器的庫與

運維學python之爬蟲高級篇（六）scrapy模擬登陸

markdown inux ins com 是否準備配置獲取圖片 con 上一篇介紹了如何爬取豆瓣TOP250的相關內容，今天我們來模擬登陸GitHub。 1 環境配置語言：Python 3.6.1 IDE： Pycharm 瀏覽器：firefox 抓包工具：fi

python之新式類與經典類

繼承 -i obj hit height tex wid 20px clas 經典類與新式類經典類:P 或 P()--深度查找，向上查父節點新式類 :P(object)---廣度查找，繼承object，新式類的方法較多 python之新式類與經典類

Python之模塊與包（下）

dir 模塊關於 mode 二層 man manage 組織否則 1、什麽是包 #官網解釋 Packages are a way of structuring Python’s module namespace by using “dotte

笨方法學python之import sys與from sys import argv的區別

use 直接所有 pop 本想 write div 一個 ng- 這是在網上看到的一個大神的解答： sys is a module that contains “system functionality”. sys.argv is a list cont

我要學python之函數與模塊

utc 整數 minute sam platform 也會技術棧內存 lib 函數這概念和c語言中的函數呀，java中的方法概念其實是一樣的。函數是組織好的，可重復使用的，用來實現單一，或相關聯功能的代碼段。比如說，java中的System.out.println(

Python之for in 與while 在循環內賦值的區別

固定 print range 如果的區別但是 while eve 變化 1 level = 3 2 for each_item in range(level): 3 level += 1 4 print(233) 輸出效果如下: 1 233 2 2

python之裝飾器與生成器

裝飾器和生成器裝飾器： def hello(fn): #1,3 def wrapper (): #4 fn()

Python之爬蟲-- 頁面解析和資料提取

目錄頁面解析和資料提取 Beautiful Soup 4.2.0 文件一、簡介二、bs4的使用 1、匯入模組

Python之爬蟲-- XML與XPath

XML

XPath（python爬蟲使用XPath解析頁面和提取資料）

一、簡介

二、什麼是 XPath?

三、使用xpath

1、匯入模組

2、XPath Helper外掛

3、XPath 術語

4、選取節點

5、 謂語（Predicates）

6、萬用字元（選取未知節點）

8、XPath 例項

相關推薦

5、謂語（Predicates）