使用xpath爬取資料

阿新 • • 發佈：2020-12-31

使用xpath來提取資料，爬取資料的簡單語法。

在這裡插入圖片描述

下載模組

快速下載模組

pip install lxml

匯入模組

from lxml import etree

etree的使用

h=etree.HTML(response.text)#response.text是網頁的原始碼
h.xpath('//img')  #尋找所有的img結點,
h.xpath('//div').xpath('.//img')#尋找所有div下的所有img結點

xpath的語法

符號
XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

表示式	描述
/	從根節點選取
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
.	選取當前節點。
. .	選取當前節點的父節點。
@	選取屬性。
\|	在兩個中結點中選擇
（）	用()來包含\|
*	包含所有元素
not	取反

例項

路徑表示式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜槓( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文件中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。
//@lang	選取名為 lang 的所有屬性。
//*[@class]	選取帶有class屬性的所有元素
//div[@*]	匹配任意屬性的div元素
//a[not(@class)]	匹配沒有class屬性的a元素

謂語
帶謂語的路徑表示式

路徑表示式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()< 3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=‘eng’]	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

到這裡就結束了，如果對你有幫助你，歡迎點贊關注，你的點贊對我很重要

使用xpath爬取資料

技術標籤：網路爬蟲pythonxpathjshtml 使用xpath來提取資料，爬取資料的簡單語法。

python3爬取資料至mysql的方法

本文例項為大家分享了python3爬取資料至mysql的具體程式碼，供大家參考，具體內容如下

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

Python3實現的爬蟲爬取資料並存入mysql資料庫操作示例

本文例項講述了Python3實現的爬蟲爬取資料並存入mysql資料庫操作。分享給大家供大家參考，具體如下：

Python大資料之從網頁上爬取資料的方法詳解

本文例項講述了Python大資料之從網頁上爬取資料的方法。分享給大家供大家參考，具體如下：

C#簡單爬取資料（.NET使用HTML解析器NSoup和正則兩種方式匹配資料）

一、獲取資料想弄一個數據庫，由於需要一些人名，所以就去百度一下，然後發現了360圖書館中有很多人名

爬取資料分析——將豆瓣電影top250以詞雲的方式展現

根據爬取到的豆瓣top250電影資訊，根據一句話概述，首先使用jieba分詞工具進行分詞，再使用wordcloud進行詞雲展示

提升scrapy爬取資料的效率

方法： - 在配置檔案中進行相關的配置即可:(預設還有一套setting) #1 增加併發：

Python爬取資料並實現視覺化程式碼解析

這次主要是爬了京東上一雙鞋的相關評論：將資料儲存到excel中並可視化展示相應的資訊

Python爬蟲——基於xpath爬取58同城房源資訊！

1、需求獲取58同城上所有房源的標題資訊https://bj.58.com/ershoufang/ 2、分析使用抓包工具進行分析

python爬取資料並可視化展現

#將excel中的資料進行讀取分析 import openpyxl import matplotlib.pyplot as pit #資料統計用的

scrapy與selenium結合爬取資料(爬取動態網站)的示例程式碼

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。

通過Python的requests庫爬取資料並儲存為csv檔案

目錄一、選擇資料來源三、整體程式碼實現 4、總結同時推薦前面作者另外兩個系列文章：

puppeteer爬取資料 await與forEach的問題解決方法

技術標籤：廣泛學習爬蟲原文：https://www.jb51.cc/python/454296.html 在使用puppeteer爬取資料時，遇到了個報錯問題，才發現了這個forEach與await的問題。

c# Selenium爬取資料時防止webdriver封爬蟲的方法

背景大家在使用Selenium + Chromedriver爬取網站資訊的時候，以為這樣就能做到不被網站的反爬蟲機制發現。但是實際上很多引數和實際瀏覽器還是不一樣的，只要網站進行判斷處理，就能輕輕鬆鬆識別你是否使用了Selen

netcore使用AngleSharp爬取資料

通過NuGet獲取AngleSharp Install-Package AngleSharp 建立AngleSharpController.cs using Microsoft.AspNetCore.Mvc;

自己動手用Python爬取資料：涉及Selenium、Scrapy、高併發處理

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，網際網路可以獲取的資料越來越多，另一方面，像 Python這樣的程式語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

Python爬取資料並儲存到csv檔案中

1、資料來源 2、Python程式碼 import requests from lxml import etree import csv url = \'http://211.103.175.222:5080/zentaopms/www/index.php?m=project&f=task&projectID=830\'

房價爬取+資料視覺化

(一)、選題的背景在當下社會住房成為人們生活的一個必需品，在生活中月來越重要本課題從該地區的人口，出生率，工人工資分析房價與他們的關係

爬蟲實踐01 | xpath爬取豆瓣top250電影排行榜

完整原始碼： #2022-03-01 xpath爬取豆瓣top250電影排行榜 import requests from lxml import etree

使用xpath爬取資料

下載模組

匯入模組

etree的使用

xpath的語法

相關推薦