Python網絡爬蟲之圖片懶加載技術、selenium和PhantomJS

阿新 • • 發佈：2019-03-01

min input 函數實現 odin 形式 nsh 分享圖片 nts www.

本文概要:

圖片懶加載
selenium
phantomJs
谷歌無頭瀏覽器

一、圖片懶加載

什麽是圖片懶加載？

案例分析：抓取站長素材http://sc.chinaz.com/中的圖片數據

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from lxml import etree

if __name__ == "__main__":
     url = ‘http://sc.chinaz.com/tupian/gudianmeinvtupian.html‘
     headers = {
          
‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘,
     }
     #獲取頁面文本數據
     response = requests.get(url=url,headers=headers)
     response.encoding = ‘utf-8‘
     page_text = response.text
     #解析頁面數據（獲取頁面中的圖片鏈接）
     # 
創建etree對象
     tree = etree.HTML(page_text)
     div_list = tree.xpath(‘//div[@id="container"]/div‘)
     #解析獲取圖片地址和圖片的名稱
     for div in div_list:
         image_url = div.xpath(‘.//img/@src‘)
         image_name = div.xpath(‘.//img/@alt‘)
         print(image_url) #打印圖片鏈接
         print(image_name)# 
打印圖片名稱

運行結果觀察發現，我們可以獲取圖片的名稱，但是鏈接獲取的為空，檢查後發現xpath表達式也沒有問題，究其原因出在了哪裏呢？
圖片懶加載概念：
- 圖片懶加載是一種網頁優化技術。圖片作為一種網絡資源，在被請求時也與普通靜態資源一樣，將占用網絡資源，而一次性將整個頁面的所有圖片加載完，將大大增加頁面的首屏加載時間。為了解決這種問題，通過前後端配合，使圖片僅在瀏覽器當前視窗內出現時才加載該圖片，達到減少首屏圖片請求數的技術就被稱為“圖片懶加載”。
網站一般如何實現圖片懶加載技術呢？
- 在網頁源碼中，在img標簽中首先會使用一個“偽屬性”（通常使用src2，original......）去存放真正的圖片鏈接而並非是直接存放在src屬性中。當圖片出現到頁面的可視化區域中，會動態將偽屬性替換成src屬性，完成圖片的加載。
站長素材案例後續分析：通過細致觀察頁面的結構後發現，網頁中圖片的鏈接是存儲在了src2這個偽屬性中

import requests
import os
import urllib
from lxml import etree

url = "http://sc.chinaz.com/tupian/hunsha.html"
headers = {
    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘
}
if not os.path.exists(‘./imgs‘):
    os.mkdir(‘./imgs‘)
    
page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)

img_url_list = tree.xpath(‘//div[@id="container"]/div/div/a/img/@src | //div[@id="container"]/div/div/a/img/@src2‘)     #圖片懶加載處理辦法

for img_url in img_url_list:
    imgName = img_url.split(‘/‘)[-1]
    imaPath = "./imgs/"+imgName
    urllib.request.urlretrieve(url=img_url,filename=imaPath)

圖片懶加載處理方案

二.selenium

什麽是selenium？
- 是Python的一個第三方庫，對外提供的接口可以操作瀏覽器，然後讓瀏覽器完成自動化的操作。　　
環境搭建
- 安裝selenum：pip install selenium（如果電腦上有多個python編輯器，要註意此處的pip來源）
- 獲取某一款瀏覽器的驅動程序（以谷歌瀏覽器為例）
  - 谷歌瀏覽器驅動下載地址：http://chromedriver.storage.googleapis.com/index.html
  - 下載的驅動程序必須和瀏覽器的版本統一，大家可以根據http://blog.csdn.net/huilan_same/article/details/51896672中提供的版本映射表進行對應
用法展示

from selenium import webdriver
from time import sleep

# 後面是你的瀏覽器驅動位置，記得前面加r‘‘,‘r‘是防止字符轉義的
driver = webdriver.Chrome(r‘驅動程序路徑‘)
# 用get打開百度頁面
driver.get("http://www.baidu.com")
# 查找頁面的“設置”選項，並進行點擊
driver.find_elements_by_link_text(‘設置‘)[0].click()
sleep(2)
# # 打開設置後找到“搜索設置”選項，設置為每頁顯示50條
driver.find_elements_by_link_text(‘搜索設置‘)[0].click()
sleep(2)

# 選中每頁顯示50條
m = driver.find_element_by_id(‘nr‘)
sleep(2)
m.find_element_by_xpath(‘//*[@id="nr"]/option[3]‘).click()
m.find_element_by_xpath(‘.//option[3]‘).click()
sleep(2)

# 點擊保存設置
driver.find_elements_by_class_name("prefpanelgo")[0].click()
sleep(2)

# 處理彈出的警告頁面   確定accept() 和 取消dismiss()
driver.switch_to_alert().accept()
sleep(2)
# 找到百度的輸入框，並輸入 美女
driver.find_element_by_id(‘kw‘).send_keys(‘美女‘)
sleep(2)
# 點擊搜索按鈕
driver.find_element_by_id(‘su‘).click()
sleep(2)
# 在打開的頁面中找到“Selenium - 開源中國社區”，並打開這個頁面
driver.find_elements_by_link_text(‘美女_百度圖片‘)[0].click()
sleep(3)

# 關閉瀏覽器
driver.quit()

代碼流程

#導包
from selenium import webdriver  
#創建瀏覽器對象，通過該對象可以操作瀏覽器
browser = webdriver.Chrome(‘驅動路徑‘)
#使用瀏覽器發起指定請求
browser.get(url)

#使用下面的方法，查找指定的元素進行操作即可
    find_element_by_id            根據id找節點
    find_elements_by_name         根據name找
    find_elements_by_xpath        根據xpath查找
    find_elements_by_tag_name     根據標簽名找
    find_elements_by_class_name   根據class名字查找
    find_elements_by_link_text       根據超鏈接文本查找

三.phantomJs

PhantomJS是一款無界面的瀏覽器，其自動化操作流程和上述操作谷歌瀏覽器是一致的。由於是無界面的，為了能夠展示自動化操作流程，PhantomJS為用戶提供了一個截屏的功能，使用save_screenshot函數實現。
用法展示

from selenium import webdriver
import time

# phantomjs路徑
path = r‘PhantomJS驅動路徑‘
browser = webdriver.PhantomJS(path)

# 打開百度
url = ‘http://www.baidu.com/‘
browser.get(url)

time.sleep(3)

browser.save_screenshot(r‘phantomjs\baidu.png‘)    #截屏

# 查找input輸入框
my_input = browser.find_element_by_id(‘kw‘)
# 往框裏面寫文字
my_input.send_keys(‘美女‘)
time.sleep(3)
#截屏
browser.save_screenshot(r‘phantomjs\meinv.png‘)

# 查找搜索按鈕
button = browser.find_elements_by_class_name(‘s_btn‘)[0]
button.click()

time.sleep(3)

browser.save_screenshot(r‘phantomjs\show.png‘)

time.sleep(3)

browser.quit()

重點：selenium+phantomjs 就是爬蟲終極解決方案:有些網站上的內容信息是通過動態加載js形成的，所以使用普通爬蟲程序無法回去動態加載的js內容。例如豆瓣電影中的電影信息是通過下拉操作動態加載更多的電影信息。
- 綜合操作：需求是盡可能多的爬取豆瓣網中的電影信息

from selenium import webdriver
from time import sleep
import time

if __name__ == ‘__main__‘:
    url = ‘https://movie.douban.com/typerank?type_name=%E6%81%90%E6%80%96&type=20&interval_id=100:90&action=‘
    # 發起請求前，可以讓url表示的頁面動態加載出更多的數據
    path = r‘C:\Users\Administrator\Desktop\爬蟲授課\day05\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe‘
    # 創建無界面的瀏覽器對象
    bro = webdriver.PhantomJS(path)
    # 發起url請求
    bro.get(url)
    time.sleep(3)
    # 截圖
    bro.save_screenshot(‘1.png‘)

    # 執行js代碼（讓滾動條向下偏移n個像素（作用：動態加載了更多的電影信息））
    js = ‘window.scrollTo(0,document.body.scrollHeight)‘
    bro.execute_script(js)  # 該函數可以執行一組字符串形式的js代碼
    time.sleep(2)

    bro.execute_script(js)  # 該函數可以執行一組字符串形式的js代碼
    time.sleep(2)
    bro.save_screenshot(‘2.png‘) 
    time.sleep(2) 
    # 使用爬蟲程序爬去當前url中的內容 
    html_source = bro.page_source # 該屬性可以獲取當前瀏覽器的當前頁的源碼（html） 
    with open(‘./source.html‘, ‘w‘, encoding=‘utf-8‘) as fp: 
        fp.write(html_source) 
    bro.quit()

四.谷歌無頭瀏覽器

由於PhantomJs最近已經停止了更新和維護，所以推薦大家可以使用谷歌的無頭瀏覽器，是一款無界面的谷歌瀏覽器。
代碼展示：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
 
# 創建一個參數對象，用來控制chrome以無界面模式打開
chrome_options = Options()
chrome_options.add_argument(‘--headless‘)
chrome_options.add_argument(‘--disable-gpu‘)
# 驅動路徑
path = r‘C:\Users\ZBLi\Desktop\1801\day05\ziliao\chromedriver.exe‘
 
# 創建瀏覽器對象
browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options)
 
# 上網
url = ‘http://www.baidu.com/‘
browser.get(url)
time.sleep(3)
 
browser.save_screenshot(‘baidu.png‘)
 
browser.quit()

Python網絡爬蟲之圖片懶加載技術、selenium和PhantomJS

min input 函數實現 odin 形式 nsh 分享圖片 nts www. 本文概要: 圖片懶加載 selenium phantomJs 谷歌無頭瀏覽器一、圖片懶加載什麽是圖片懶加載？案例分析：抓取站長素材http://sc.china

爬蟲之圖片懶加載, selenium , phantomJs, 谷歌無頭瀏覽器

ext htm ora cep eight html_ all strong 自動化一.圖片懶加載什麽是圖片懶加載？案例分析：抓取站長素材http://sc.chinaz.com/中的圖片數據 #!/usr/bin/env python # -*-

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

常見實戰交互影視獲取框架並且 htm 處理 1.動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過js / AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成<divi

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

返回 scripts http ref select 文本 lang bsp str 1.windows下安裝scrapy：cmd命令行下：cd到python的scripts目錄，然後運行pip install 命令然後pycharmIDE下就有了Scrapy：

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

Python網絡爬蟲之三種數據解析方式

循環 oob bs4 none @class clas sel 執行替換一.正則解析　　單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字 [0-9]

python網絡爬蟲之requests模塊

基於 req 模塊模擬網絡爬蟲用法 bsp 流程發送什麽是requests模塊: 　　requests模塊是python中原生的基於網路請求的模塊,其主要作用是用來模擬瀏覽器發送請求,功能強大,用法簡潔高效,在爬蟲的領域占半壁江山如何使用requests模塊

Python網絡爬蟲之Scrapy框架（CrawlSpider）

setting ref 網頁 del tle python網絡 yield 介紹 import 目錄 Python網絡爬蟲之Scrapy框架（CrawlSpider） CrawlSpider使用

Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

9.png amp F12 不存在 strong xls sco 列表 std (一) 分析網頁下載下面這個鏈接的銷售數據 https://item.jd.com/6733026.html#comment 1、翻頁的時候，谷歌F12的Network頁簽可以

爬蟲之圖片懶載入技術、selenium和PhantomJS

爬蟲之圖片懶載入技術、selenium和PhantomJS 圖片懶載入 selenium phantomJs 谷歌無頭瀏覽器一.圖片懶載入什麼是圖片

Python 入門網絡爬蟲之精華版

網站爬蟲處理通過精華免費 proxy params 華爾街 Python 入門網絡爬蟲之精華版轉載寧哥的小站，總結的不錯 Python學習網絡爬蟲主要分3個大的版塊：抓取，分析，存儲另外，比較常用的爬蟲框架Scrapy，這裏最後也詳細介紹一

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

文件的華僑定位 spa 文件目錄 lxml odi nco unicode 1.與Scrapy不同的是Beautiful Soup並不是一個框架，而是一個模塊；與Scrapy相比，bs4中間多了一道解析的過程（Scrapy是URL返回什麽數據，程序就接受什麽數據進行過濾

python網絡爬蟲與信息提取之request的安裝

網絡爬蟲與信息提取第一天本文出自 “大李子” 博客，謝絕轉載！python網絡爬蟲與信息提取之request的安裝

python網絡爬蟲-數據采集之遍歷單個爬蟲

target follow ndt 數據采集 http lan python www win 8D湛91G坡嗇1訝Dhttp://www.facebolw.com/space/2102892/following T判捕9墳17猿9PFV瞬http://www.facebo

Python網絡爬蟲實戰案例之：7000本電子書下載（2）

3.2 pytho oss 部署 .html http term ext 開發環境安裝一、前言本文是《Python開發實戰案例之網絡爬蟲》的第二部分：7000本電子書下載網絡爬蟲開發環境安裝部署。配套視頻課程詳見51CTO學院。二、章節目錄（1）Python開發環境

Python網絡爬蟲實戰案例之：7000本電子書下載（1）

批量 cad 3.2 img oss 開發批量導出 ucc 學院一、前言本文是《Python開發實戰案例之網絡爬蟲》的第一部分：7000本電子書下載網絡爬蟲完整案例演示。配套視頻課程詳見[51CTO學院] 章節目錄：（1）頁面分析1：列表頁-圖書清單（2）頁面分析2

Python網絡爬蟲實戰案例之：7000本電子書下載（3）

RoCE img http cfa ext 頁面 ffffff 分享 html 一、前言本文是《Python開發實戰案例之網絡爬蟲》的第三部分：7000本電子書下載網絡爬蟲開發實戰詳解。配套視頻課程詳見51CTO學院請添加鏈接描述。二、章節目錄 3.1 業務流程3.2

Python網絡爬蟲實戰案例之：7000本電子書下載（4）

視頻課程 3.1 剖析 src jpg -html proc 下載 blog 一、前言本文是《Python開發實戰案例之網絡爬蟲》的第四部分：7000本電子書下載網絡爬蟲-源碼框架剖析。配套視頻課程詳見：51CTO學院。二、章節目錄 3.1 requests-html文

python學習第八十五天：網絡爬蟲之數據解析方式

數據解析模式 end 解析多次 pre 綜合練習直接 list Python網絡爬蟲之數據解析方式正則解析單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字

Python網絡爬蟲之圖片懶加載技術、selenium和PhantomJS

本文概要:

一、圖片懶加載

二.selenium

三.phantomJs

四.谷歌無頭瀏覽器

相關推薦