Python爬蟲資料提取方式——使用xpath提取頁面資料

阿新 • • 發佈：2019-02-06

xpath：跟re,bs4,pyquery一樣，都是頁面資料提取方法。

xpath是根據元素的路徑來查詢頁面元素。

安裝lxml包：pip install lxml

HTML例項:

html = """
    <div id='content'>
        <ul class='list'>
            <li class='one'>One</li>
            <li class='two'>Two</li>
            <li class='three'>Three</li>
            <li class='four four1 four2 four3'>Four</li>
            <div id='inner'>
                <a href='http://www.baidu.com'>百度一下</a>
                <p>第一段</p>
                <p>第2段</p>
                <p>第3段</p>
                <p>
                    第4段
                    <span>法大師傅大師傅</span>
                </p>
                <p>第5段</p>
                <p>第6段</p>
            </div>
        </ul>
    </div>
"""

將一個Html檔案解析成為物件：

首先匯入：

# element tree: 文件樹物件
from lxml.html import etree

將HTML解析成為物件：

#方式一：使用較多
obj= etree.HTML("index.html")

#方式二：
obj = etree.parse('index.html')

print(type(obj))

開始查詢元素或資料：

注意：

1、 //ul: 從obj中查詢ul，不考慮ul所在的位置。
2、/li: 找到ul下邊的直接子元素li，不包含後代元素。
3、 [@class="one"]: 給標籤設定屬性，用於過濾和篩選

4、xpath()返回的是一個列表：比如

one_li = obj.xpath('//ul/li[@class="one"]')[0]

獲取one_li的文字內容：

one_li = obj.xpath('//ul/li[@class="one"]')[0]
print(one_li.xpath('text()')[0])

# 上述寫法的合寫方式
print(obj.xpath('//ul/li[@class="one"]/text()')[0])

獲取所有li的文字內容：

all_li = obj.xpath('//ul/li/text()')

獲取所有li的文字內容以及class屬性的值：

all_li = obj.xpath('//ul/li')
for li in all_li:
    class_value = li.xpath('@class')[0]
    text_value = li.xpath('text()')[0]
    print(class_value, text_value)

獲取div標籤內部的所有文字：

注意：//text()：獲取所有後代元素的文字內容
/text()：獲取直接子元素的文字，不包含後代元素

print(obj.xpath('//div[@id="inner"]//text()'))

獲取ul中第一個li [1]（[1]:第一個li）的文字：

print(obj.xpath('//ul/li[1]/text()'))

查詢類名中包含four的li的文字內容：

print(obj.xpath('//ul/li[contains(@class, "four")]/text()'))

Python爬蟲教程-24-數據提取-BeautifulSoup4（二）

筆記 rgs hub 表達 ren () tags .com desc Python爬蟲教程-24-數據提取-BeautifulSoup4（二）本篇介紹 bs 如何遍歷一個文檔對象遍歷文檔對象 contents：tag 的子節點以列表的方式輸出 children：子節

Python爬蟲教程-25-數據提取-BeautifulSoup4（三）

運行 .com div 分享 size content bs4 text ont Python爬蟲教程-25-數據提取-BeautifulSoup4（三）本篇介紹 BeautifulSoup 中的 css 選擇器 css 選擇器使用 soup.select 返回一個列

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

python爬蟲的常見方式

adsl ajax 打碼平臺 pid shark 方式 -a 分布式 rapyd requests+bs4+lxml直接獲取並解析html數據抓包ajax請求，使用requests獲取並解析json數據反爬嚴重的網站，使用selenium爬取設置代理 a.urllib

python爬蟲系列(3.1-xpath語法的介紹)

一、關於xpath的認識 xpath（XML Path Language）是一門在XML和HTML文件中查詢資訊的語言，可用來在XML和HTML文件中對元素和屬性進行遍歷。二、xpath的基本語法 1、選擇節點 2、謂語謂語是用來找出某個特定的

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB任務目標：爬取豆瓣電影top250，將資料儲存到MongoDB中。 items.py檔案複製程式碼# -*- coding: utf-8 -*-import scrapy class DoubanItem(scrapy.Item): # d

python:爬蟲之Post請求以及動態Ajax資料的爬取（3）

#爬蟲的post方式作用：對引數進行打包反饋給伺服器 import urllib.request import urllib.parse #對引數打包 url = "http://www.sunck.wang:8085/form" data = { "use

python爬蟲Scrapy(一)-我爬了boss資料 MongoDB基本命令操作

一、概述學習python有一段時間了，最近了解了下Python的入門爬蟲框架Scrapy，參考了文章Python爬蟲框架Scrapy入門。本篇文章屬於初學經驗記錄，比較簡單，適合剛學習爬蟲的小夥伴。這次我選擇爬取的是boss直聘來資料，畢竟這個網站的

2.1-Python爬蟲-正則/XML/XPath/CSS選擇器-案例演示

Python爬蟲-正則/XML/XPath/CSS選擇器正則表示式案例v23,re的基本使用流程 ''' python中正則模組是re 使用大致步驟： 1. compile函式講正則表示式的字串便以為一個Pattern物件 2. 通過Pattern物件的一些列方法對文字進行匹配，匹配結果是一個Mat

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

python 使用selenium和requests爬取頁面資料

目的：獲取某網站某使用者下市場大於1000秒的視訊資訊 1.本想通過介面獲得結果，但是使用post傳送資訊到介面，提示服務端錯誤。 2.通過requests獲取頁面結果，使用html解析工具，發現麻煩而且得不到想要的結果 3.直接通過selenium獲取控制元件的屬性資訊，如圖片、視訊地址，再對時間進行篩選