pyhton爬蟲（9）——使用XPath提取網頁資訊

阿新 • • 發佈：2019-01-26

1. XPath基礎

1.1 什麼是XPath？

XPath 是一門在 XML 文件中查詢資訊(節點)的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。

1.2 節點

節點是XPath提取XML文件資訊的最小單位，一共有7種：

（1）元素節點（element）

（2）屬性節點（attribute）

（3）文字節點（text）

（4）名稱命名節點（namespace）

（5）處理命令節點（processing-instruction）

（6）註釋節點（comment）

（7）根節點（root）

1.3 節點關係

（1）父節點（parent）：每個元素以及屬性都有一個父節點。

（2）子節點（child）：元素節點可以有零個、一個或多個子節點。

（3）同胞節點（sibling）: 擁有相同的父的節點。

（4）前輩節點（ancestor）:某節點的父節點的父節點。

（5）後代（descendant）:某節點的子節點的子節點。

1.4 XPath 基本用法

1.4.1 基本語法：

（1）//（雙斜槓）：定位根節點，會對全文進行掃描，在文件中選取所有符合條件的內容，以列表的形式返回。

（2）/（單斜槓）:尋找當前標籤路徑的下一層路徑標籤或者對當前路標籤內容進行操作。

（3） /text()：獲取當前路徑下的文字內容 。

（4）/@xxxx：提取當前路徑下標籤的屬性值

。

（5） | 可選符：使用|可選取若干個路徑如//p | //div 即在當前路徑下選取所有符合條件的p標籤和div標籤。

（6）. 點：用來選取當前節點 。

（7）..（雙點）：選取當前節點的父節點 。

（8）“*”（萬用字元）：表示匹配任何元素節點。

（9）“@*”（萬用字元）：表示匹配任何屬性值。

（10）“node（）”（萬用字元）：表示匹配任何型別的節點。

1.4.2 XPath提取元素示例

# -*- coding: utf-8 -*-
"""
Created on Tue Jul 18 10:23:19 2017

@author: Administrator
""" 


from lxml import etree

text = '''<html>

    <div class="large" id="content">

        <span>A line of text</span><br/>

        <span><a href="http://google.com">A link</a></span>

    </div>

    <div class="short" id="footer">

    </div>
</html>
'''

html = etree.HTML(text)
#result1 = etree.tostring(html)
#print(result1)

#(1)提取class屬性值為large的div標籤中的id屬性值
print("id屬性值:",html.xpath('//div[@class="large"]/@id')[0])

#(2)提取第一個span標籤中的文字資訊
print("第一個span標籤中的文字資訊:",html.xpath('//span/text()')[0])

#(3)提取第二個span標籤中的連結
print("第二個span標籤中的連結:",html.xpath('//span/a/@href')[0])

執行結果如下圖所示：

這裡寫圖片描述

pyhton爬蟲（9）——使用XPath提取網頁資訊

1. XPath基礎 1.1 什麼是XPath？ XPath 是一門在 XML 文件中查詢資訊(節點)的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。 1.2 節點節點是XPath提取XML文件資訊的最小單位，一共有7種：（1）元

pyhton爬蟲（10）——通過亞馬遜商品評論時間分析商品銷量分佈情況

本文以亞馬遜rope bag商品為例，共採集到1989條商品評論時間資料，並選取15年1月——17年7月的1809條資料來繪製分月銷量圖。採集資料的python程式碼如下所示： # -*- coding: utf-8 -*- """ Created o

Python3爬蟲（一）抓取網頁的html

因為程式碼只有幾行，所以可以先貼程式碼： import urllib.request url = r'http://douban.com' res = urllib.request.urlopen(url) html = res.read().decode('utf-

pyhton爬蟲（8）——獲取網易新聞內容

本文主要目的是獲取網易新聞標題和正文內容。實現程式碼如下所示： # -*- coding: utf-8 -*- """ Created on Mon Jul 17 15:46:30 2017 @author: Administrator """ from b

python爬蟲（三）xpath與lxml

XPath XPath是一種在xml中查詢資訊的語言，可以用來在xml文件中對元素和屬性進行遍歷。 XPath使用路徑表示式在xml文件中選取節點，這裡注意需要逐級表現要選取節點的父子關係。 XPath符號 nodename 選取此節點的所有子節點 /

python網路爬蟲（9）構建基礎爬蟲思路

目的意義基礎爬蟲分5個模組，使用多個檔案相互配合，實現一個相對完善的資料爬取方案，便於以後更完善的爬蟲做準備。這裡目的是爬取200條百度百科資訊，並生成一個html檔案，儲存爬取的站點，詞條，解釋。本文思路來源書籍。其程式碼部分來源書籍。https://book.douban.com/subjec

小白學 Python 爬蟲（9）：爬蟲基礎

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

selenium（9）- Xpath的詳細使用

什麼是Xpath 官方：XPath 是一門在 XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航【XPath 使用路徑表示式來選取 XML 文件中的節點或者節點集】 Xpath在UI自動化中應用的場景在Web UI自動化中，其實用Xpath的定位元素的優

dotnetcore爬蟲（一）簡單獲取頁面資訊

我們就不多講理論了，直接拿出程式碼，嘗試嘗試就知道需要用到什麼知識了。畢竟實踐是檢驗真理的唯一標準。 using System; using System.Net.Http; namespace dotnetcoreHttpClient { class Program

Asp.Net MVC4入門指南（9）：查詢詳細資訊和刪除記錄

在本教程中，您將檢視自動生成的Details和Delete方法。查詢詳細資訊和刪除記錄開啟Movie控制器並檢視Details方法。 public ActionResult Details(int id = 0) { Movie movie = db.Movies.Find(id);

爬蟲相關知識（二）xpath

點名節點 style 路徑 name 相對路徑 span 名稱格式 #xpath表達式的基本格式 # 斜杠（/）作為路徑內部的分割符。 # 同一個節點有絕對路徑和相對路徑兩種寫法。 # 絕對路徑（absolute path）必須用"/"起首，後面緊跟根節點，比如

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

python爬蟲入門（三）XPATH和BeautifulSoup4

XML和XPATH 用正則處理HTML文件很麻煩，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。 XML 指可擴充套件標記語言（EXtensible Markup Language） XML 是一種標記語言，很類似 HTML XML 的設計宗旨是

python爬蟲（1）——簡單的爬取網頁的資訊

獲取網上真實的語料資料，本身對Py的掌握不是很好，記錄下自己學習的過程，希望對你有幫助。 #python3 獲得taoeba的語料（不知道從哪翻到的這個網站，有各國語言的句子，訪問速度較慢 # -

python3爬蟲攻略（9）：requests的使用

Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。 Requests繼承了urllib的所有特性。 Requests支援HTTP連線保持和連線池，支援使用cookie保持會話，支援檔案上傳，支援自動確定響應內容的編碼，支援

python3爬蟲（二）-使用beautiful soup 讀取網頁

Beautiful Soup簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

Python3.7 爬蟲（二）使用 Urllib2 與 BeautifulSoup4 抓取解析網頁

開篇上一篇中我們通過原生的 re 模組已經完成了網頁的解析，對於熟悉正則表示式的童鞋來說很好上手，但是對於萌新來說，還是有一定難度以及複雜度的，那麼這裡我們就來使用第三方解析包來解析獲取到的網頁吧。 BeautifulSoup 官方的 Beaut

pyhton爬蟲（9）——使用XPath提取網頁資訊

1. XPath基礎

1.1 什麼是XPath？

1.2 節點

1.3 節點關係

1.4 XPath 基本用法

1.4.1 基本語法：

1.4.2 XPath提取元素示例

相關推薦