python xpath用法

阿新 • • 發佈：2019-01-29

xpath在Python的爬蟲學習中，起著舉足輕重的地位，對比正則表示式 re兩者可以完成同樣的工作，實現的功能也差不多，但xpath明顯比re具有優勢，在網頁分析上使re退居二線。

xpath的簡單用法：

import requests
# 引入xpath模組
from lxml import etree

url ='http://www.qiushibaike.com/hot/page/1'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'
}
response = requests.get(url,headers=headers)
print(response.content)
# 將字串轉化成html程式碼
root = etree.HTML(response.content)
print(root)
# //從根標籤開始找 找到類名為author clearfix的標籤
# /a 找到某一個標籤下面的a標籤
# text（）獲取標籤的文字
name = root.xpath('//div[@class="author clearfix"]/a/h2/text()')
#值是一個列表
print(name)
content = root.xpath('//div[@class="content"]/span/text()')
print(content)

1) // 雙斜槓定位根節點，會對全文進行掃描，在文件中選取所有符合條件的內容，以列表的形式返回。

html = etree.parse(原始碼)
print(type(html))
print(html)
# 找到網頁內所有的a標籤
a = html.xpath('//a')
print(a)

# 找到所有的ul標籤
# 找到所有ul當中的所有a標籤
# 獲取a標籤文字和所有a標籤的子標籤的文字
result = html.xpath('//ul//a//text()')
print(result)

2) / 單斜槓尋找當前標籤路徑的下一層路徑標籤或者對當前路標籤內容進行操作
3) /text() 獲取當前路徑下的文字內容

# 找到指定的文字內容
# 如果找某一個標籤的文字 而這個標籤下面還有其他的標籤
# 那麼只找這個標籤的文字 子標籤的文字不找
result = html.xpath('//a/text()')
print(result)

# 獲取指定id名字的標籤的文字
result = html.xpath('//ul/li/a[@id="jd"]/text()')
print(result)
# 獲取擁有指定類名的標籤的文字
result = html.xpath('//a[@class="shopping"]/text()')
print(result)

# //text()找到本標籤以及所有子標籤的文字
result = html.xpath('//div//text()')
print(result)
for name in result:
    print(name)

4) /@xxxx 提取當前路徑下標籤的屬性值

# 找到所有a標籤的超連結屬性
result = html.xpath('//a/@href')
print(result)

5) last()獲取最後一個

result = html.xpath('//ul/li[last()]')
print(result)

xpath爬蟲例子，爬取天堂圖片網：

# shutil 是高階的檔案，資料夾，壓縮包處理模組
import os,shutil
# urlretrieve 用於圖片的下載
from urllib.request import urlretrieve
import requests
from lxml import etree

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'
}
# 建立資料夾
if os.path.exists('images'):
    shutil.rmtree('images', True)
else:
    os.mkdir('images')
    os.chdir('images')
record = 1
def get_image_with_code(url):
    response = requests.get(url,headers=headers).content
    # print(response)
    code  = etree.HTML(response)
    # 獲取圖片img標籤
    img_list = code.xpath('//div[@class="il_img"]/a/img')
    print(img_list)
    global record
    print('正在下載第{}頁'.format(record))
    os.mkdir('第{}頁'.format(record))
    os.chdir('第{}頁'.format(record))
    for img in img_list:
        # img_src = img.get('src')
        # 獲取圖片地址
        img_src = img.xpath('@src')[0]
        # 獲取圖片名
        img_alt = img.get('alt')+'.jpg'
        print(img_src,img_alt)
        #下載 前面為圖片地址，後面為圖片名字
        urlretrieve(img_src,img_alt)
    record += 1
    # 返回父級目錄
    os.chdir(os.path.pardir)
    # 獲取下一頁的連結
    next_page_url = code.xpath('//a[@class="page-next"]/@href')[0]
    print(next_page_url)
    if len(next_page_url) == 0:
        print('已到最後一頁')
        return
    else:
        base_url = 'http://www.ivsky.com'
        # 拼接網址
        full_url = base_url+next_page_url
        # 呼叫方法獲取下一頁圖片
        get_image_with_code(full_url)
# 呼叫方法開始爬取圖片
get_image_with_code('http://www.ivsky.com/tupian/meishishijie/')

python xpath用法

xpath在Python的爬蟲學習中，起著舉足輕重的地位，對比正則表示式 re兩者可以完成同樣的工作，實現的功能也差不多，但xpath明顯比re具有優勢，在網頁分析上使re退居二線。 xpath的簡單用法： import requests # 引入xpath模組 from

Python re模塊， xpath 用法

方括號 span reg price 特定屬性節點 step 屬於 ica 1、re正則的用法總結　　（1）、 ^ 表示以哪個字符為開頭 eg: ‘^g‘ 表示以g開頭的字符串 . 表示任意字符 ‘^g.d‘ 表示以g開頭第二個為任意字符，第三個

python中lxml模組下的xpath用法

安裝 pypi下載地址：https://pypi.python.org/pypi/lxml/3.4.2#downloads pip install lxml XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬

python 小白(無編程基礎，無計算機基礎)的開發之路輔助知識3 python os 用法

padding 我們 .so mtime mage os.chdir 實現 exists 返回獲取文件所在路徑 import os os.path.dirname(__file__) 獲取當前文件的所在路徑 print (os.path.dirname(os.p

關於#!/usr/bin/env python 的用法

查找 linux中 man gpo 安裝不同的 linux 啟動 log 在linux的一些腳本裏，需在開頭一行指定腳本的解釋程序，如： !/usr/bin/env python 再如： !/usr/bin/env perl 那麽 env到底有什麽用？何時用這個呢？腳本用

reduce python 的用法

placed pos app default tool value nbsp gpo too 1.查看reduce 的用法在python 命令查看 import functools help(functools) help(functools.reduce)

python--open用法

gpo pytho 字符串默認 notice clas filter red oem open/文件操作f=open(‘/tmp/hello‘,‘w‘)#open(路徑+文件名,讀寫模式)#讀寫模式:r只讀,r+讀寫,w新建(會覆蓋原有文件),a追加,b二進制文件.常用模

python-logging用法

format ger name formatter ogg ots time nbsp mat 1，引入logging 程序包　　import logging 2,定義一個logging對象　　logger = logging.getLogger(‘logger_nam

python argparse用法總結

計算註意 get 一行 false lB 數學計算 valid else 轉:python argparse用法總結 1. argparse介紹　　argparse是python的一個命令行解析包，非常編寫可讀性非常好的程序 2. 基本用法　　prog.py是

python-常見用法

shift 分割 ... list fir new 替換 AD tde 一、註釋單行註釋：#後全部註釋多行註釋：‘‘‘所有內容‘‘‘ 或者使用 """所有內容""" ，多行註釋用三對單引號或雙引號包裹二、數字Number int---整數 1 2

python:datetime用法

rom import 小時當前日期格 print int 用法 pytho >>import datetime>>print(datetime.datetime.now()) #返回當前時間 2018-07-30 16：15：30.315000

python:random用法

python pytho ava port 個數 .... 隨機生成 sam range >>import random>>print(random.random()) #生成0-1的隨機數>>print(random.randint(

xpath用法

htm www. 用法 sch school border 為知筆記 dex right http://www.ibm.com/developerworks/cn/xml/x-xpath5tips/index.html http://www.w3school

python argparse用法

arguments turn argparse choice urn win rom imp mat 示例一創建文件prog.py import argparse parser = argparse.ArgumentParser() parser.add_argumen

python xpath 獲取指定頁面中指定區域的html代碼

pytho sts clas xpath nbsp install .get element XML 　　最近一個朋友問我怎麽把一個指定區域的內容轉成pdf，網上查了一下python裏面有個wkhtmltopdf模塊可以將str、file、url轉成pdf，我們今天不聊

Python-- Selenium用法

目錄基本框架詳細用法如下： 1：宣告瀏覽器物件 2：訪問頁面 3：查詢單個元素 4：查詢多個元素 5：元素的互動操作 6：互動動作 7：執行javascript 8：獲取元素資訊 9：等待 10：瀏覽器的前進和後退 11：cookies的處理

Python-- lxml用法

目錄 lxml庫（lxml安裝可檢視上一篇文章） Element類 1、節點操作 2、屬性操作 3、文字操作 4、檔案解析與輸出 5、ElementPath 6、案例（尤其最後的一篇程式碼） lxml庫（lxml安裝可檢視上一篇文

python字串用法

一,資料型別的轉換 1常用的資料型別有int,str,bool三種; int是整型:一般的操作是查詢資料的二進位制長度bit_length() 一般資料有:1)二進位制:逢二進一2)十進位制,(0-9)逢十進一3)八進位制,(0-7)蜂八進一4)十六進位制逢 (0-F)十六進一例: a=10&nb

Python import用法

官方文件說明： Python code in one module gains access to the code in another module by the process of importing it. Python import可以實現一個模組訪問另一個模組。 &

python列表用法大全

轉載請註明出處：https://blog.csdn.net/qq_40678222/article/details/83048076 目錄序言： 0.0 list()函式 1.0 append()函式 2.0 clear()函式 3.0 copy()函式 4.

python xpath用法

相關推薦