python爬取動態網頁

阿新 • • 發佈：2019-01-31

還記得在之前一篇python開發電影查詢系統（一）—python實現後臺資料中，對電影的下載地址無法進行爬取，原因是下載地址在網頁原始碼中無法檢視，而是存放在js中，動態載入了。所以在爬取時，我在文章中寫道
這裡寫圖片描述

現在，我們找到了攻破他反爬的方法。下面我來詳細介紹一下。

robobrowser庫所做的事情就是模擬你真實的瀏覽器，並可載入動態js頁面，從而爬取資料。是不是很牛逼啊。

一、robobrowser庫的下載安裝。

直接用python的pip安裝即可

pip3 install robobrowser

二、使用方法

安裝完成後，使用help檢視使用方法。
這裡寫圖片描述

進入以後，我們開啟F12，檢視網頁原始碼。重新整理頁面，檢視network

將General和Request headers複製下來。

# -*- coding: utf-8 -*-
import robobrowser
import time
from requests import Session
    urls = []
    ua = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
    session = Session()
    # 直接從瀏覽器的F12取的headers，不這樣的話，網站有反爬蟲機制 

    # 資料爬了幾十條後就返回無資料內容的頁面了
    session.headers = {
    "Request URL": film_url,
    "Request Method": "GET",
    #"Remote Address": "",
    "Referrer Policy": "no-referrer-when-downgrade",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Accept-Encoding" 
: "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Cache-Control": "max-age=0",
    "Cookie": "Hm_lvt_0fae9a0ed120850d7a658c2cb0783b55=1527565708,1527653577,1527679892,1527729123; Hm_lvt_cdce8cda34e84469b1c8015204129522=1527565709,1527653577,1527679892,1527729124; _site_id_cookie=1; clientlanguage=zh_CN; JSESSIONID=5AA866B8CDCDC49CA4B13D041E02D5E1; yunsuo_session_verify=c1b9cd7af99e39bbeaf2a6e4127803f1; Hm_lpvt_0fae9a0ed120850d7a658c2cb0783b55=1527731668; Hm_lpvt_cdce8cda34e84469b1c8015204129522=1527731668",
    "Host": "www.bd-film.co",
    "Proxy-Connection": "keep-alive",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": ua
    }

檢視每個下載url的原始碼，藉助css選擇器，把url的selecter地址複製下來。

我們多複製幾個看看

#downlist > div > div > div:nth-child(1) > div
#downlist > div > div > div:nth-child(2) > div
#downlist > div > div > div:nth-child(3) > div

發現規律，所有下載地址的selecter地址中都有downlist ，所以我們會有下面程式碼中處理機制。

rb = robobrowser.RoboBrowser(parser="html.parser", session=session)
rb.open(url=film_url)
r = rb.select('#downlist')
if not r:
    # print(rb.response.content.decode())
    raise RuntimeError("獲取網頁內容失敗")

根據“複製地址”所對應的url（已找到規律），來獲取其後面的迅雷、小米等具體的下載連結。
現在我們來看看他們具體對應到迅雷，小米，百度雲盤的下載連結。

程式碼如下：


r = r[0]
for v in range(128):#這裡迴圈次數根據你想爬取的數目為準
    id_name = '#real_address_%d' % v
    dl = r.select(id_name)
    if not dl:
        break
    dl = dl[0].select('.form-control')[0].text
    #這裡dl就是具體下載地址了

OK，完整程式碼如下：

# -*- coding: utf-8 -*-
import robobrowser
import time

def get_bd_film_download_urls(film_url):
    from requests import Session
    urls = []
    try:
        ua = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
        session = Session()
        # 直接從瀏覽器的F12取的headers，不這樣的話，網站有反爬蟲機制
        # 資料爬了幾十條後就返回無資料內容的頁面了
        session.headers = {
        "Request URL": film_url,
        "Request Method": "GET",
        #"Remote Address": "",
        "Referrer Policy": "no-referrer-when-downgrade",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Accept-Encoding": "gzip, deflate",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Cache-Control": "max-age=0",
        "Cookie": "Hm_lvt_0fae9a0ed120850d7a658c2cb0783b55=1527565708,1527653577,1527679892,1527729123; Hm_lvt_cdce8cda34e84469b1c8015204129522=1527565709,1527653577,1527679892,1527729124; _site_id_cookie=1; clientlanguage=zh_CN; JSESSIONID=5AA866B8CDCDC49CA4B13D041E02D5E1; yunsuo_session_verify=c1b9cd7af99e39bbeaf2a6e4127803f1; Hm_lpvt_0fae9a0ed120850d7a658c2cb0783b55=1527731668; Hm_lpvt_cdce8cda34e84469b1c8015204129522=1527731668",
        "Host": "www.bd-film.co",
        "Proxy-Connection": "keep-alive",
        "Upgrade-Insecure-Requests": "1",
        "User-Agent": ua
        }
        rb = robobrowser.RoboBrowser(parser="html.parser", session=session)
        rb.open(url=film_url)
        if rb.response.status_code != 200:
            return  urls
        r = rb.select('#downlist')#使用css過濾器篩選出下載連結的關鍵欄位
        if not r:
            # print(rb.response.content.decode())
            raise RuntimeError("獲取網頁內容失敗")

        r = r[0]
        for v in range(128):
            id_name = '#real_address_%d' % v
            dl = r.select(id_name)
            if not dl:
                break
            dl = dl[0].select('.form-control')[0].text
            urls.append(dl)
    except Exception as err:
        print('error:',film_url, err)
    return urls
if __name__ == '__main__':

    for i in range(25000, 25700):
        ul = 'http://www.bd-film.co/zx/%d.htm' % i
        down_urls = get_bd_film_download_urls(ul)
        if down_urls:
            s = '-->'
            print(ul, s, ','.join(down_urls))
        time.sleep(1)
        # break

效果展示：
這裡寫圖片描述

將–>後面的地址複製迅雷，就可以下載了~~快去試試吧！

python 爬取動態網頁（百度圖片）

# python 3.6.3 import re import os from urllib import parse from urllib import request ################################################### # 搜尋關鍵字

python爬取動態網頁

還記得在之前一篇python開發電影查詢系統（一）—python實現後臺資料中，對電影的下載地址無法進行爬取，原因是下載地址在網頁原始碼中無法檢視，而是存放在js中，動態載入了。所以在爬取時，我在文章中寫道現在，我們找到了攻破他反爬的方法。下面我來詳細介

Python使用selenium爬取動態網頁時遇到的問題

我們在做京東手機資訊的爬取時，遇到的一些問題，現在就來跟大家分享一下。 1.首先，京東的網頁是動態的，當我們搜尋一個商品時，需要把頁面往下翻，下面的內容才會出來，這也是我們選selenium方法的原因解決方法：讓瀏覽器模擬下拉幾次頁面即可 from selen

[Python爬蟲]Scrapy配合Selenium和PhantomJS爬取動態網頁

Python世界中Scrapy一直是爬蟲的一個較為成熟的解決方案，目前javascript在網頁中應用越來越廣泛，越來越多的網站選擇使用javascript動態的生成網頁的內容，使得很多純html的爬蟲解決方案失效。針對這種動態網站的爬取，目前也有很多解決方案。

Python如何爬取動態網頁資料

1.引言說到爬網頁，我們一般的操作是先檢視原始碼或者審查元素，找到資訊所在節點，然後用 beautifulsoup/xpth/re 來獲取資料，這是我們對付靜態網頁的常用手段。但大家也知

爬取動態網頁：Selenium

如何瀏覽器要去 nbsp ges selenium 安全性接口比較參考：http://blog.csdn.net/wgyscsf/article/details/53454910 概述在爬蟲過程中，一般情況下都是直接解析html源碼進行分析解析即可。但是

爬取動態網頁中關於構造瀏覽器頭的註意事項

rand 服務器 mage 地址 span gzip 原來動態網頁 ati 在原來爬取動態網頁圖片中，獲取到了圖片的實際地址，但是下載下來的圖片是損壞的，究其原因，是服務器端阻止了訪問，但是觀察發現 headers = {‘User-Agent‘: random.cho

網路爬蟲：爬取動態網頁

import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml') res.encoding = '

python 爬取靜態網頁

# python 3.6.3 import re from urllib import request # '''網址''' 圖片_百度百科獲取整個網頁的程式碼 url = 'https://baike.baidu.com/item/%E5%9B%BE%E7%89%87/372416?fr

Python3+Selenium爬取動態網頁資料

背景：有時候想獲取網頁的資訊，然後下載裡面的圖片資料等等遇到的問題：有時一些網頁是動態的，一些內容是通過js非同步拉取，甚至拉取時間是懶載入的，例如滾動到元素位置的時候才載入解決方案：這個時候就需要Selenium神器了 Selenium 是什麼？一句話

R語言爬取動態網頁之環境準備

　　在R實現pm2.5地圖資料展示文章中，使用rvest包實現了靜態頁面的資料抓取，然而rvest只能抓取靜態網頁，而諸如ajax非同步載入的動態網頁結構無能為力。在R語言中，爬取這類網頁可以使用RSelenium包和Rwebdriver包。　　RSelenium包和Rwebdriver包都是

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

Python3網路爬蟲：requests爬取動態網頁內容

本文為學習筆記學習博主:http://blog.csdn.net/c406495762 Python版本：python3.+ 執行環境：OSX IDE：pycharm 一、工具準備抓包工具：在OSX下,我使用的是Charles4.0 下載連結以及安裝教

python 爬取靜態網頁步驟詳解

以爬取鏈家租房資訊為例 1. 匯入包和設定環境 #coding:utf-8 #by:xavier([email protected]) import requests import time from lxml import etree impo

Python爬取動態說說，生成詞雲，看看朋友的現狀

今天我們要做的事情是使用動態爬蟲來爬取QQ空間的說說，並把這些內容存在txt中，然後讀取出來生成雲圖，這樣可以清晰的看出朋友的狀況。這是好友的QQ空間10年說說內容，基本有一個大致的印象了。爬取動態內容 1.因為動態頁面的內容是動態加載出來的，所以

selenium和PhantomJS爬取動態網頁

一、selenium和PhantomJS用法簡介 selenium是web的自動化測試工具，類似按鍵精靈，可以直接執行在瀏覽器上。 pip install selenium PhantomJS是基於

nodejs 爬取動態網頁

前言準備工作建立工程後記前言昨天實現了草榴的爬取 nodejs 做一個簡單的爬蟲爬草榴，今天對程式碼做了一部分修改，增加了可以指定開始頁和結束頁，並且給所有檔案都單獨建立了資料夾。那麼問題來了，說好的爬街拍圖

使用Selenium爬取動態網頁

使用selenium優點：所見既所得通過page_source屬性可以獲得網頁原始碼 selenium可以驅動瀏覽器完成各種操作，如填充表單、模擬點選等。獲取單個節點的方法： find_element_by_id find_element_by_na

爬蟲爬取動態網頁下載美女圖片

scrapy爬取動態網頁下載圖片靜態頁面練習了後，我們開始來爬取動態頁面，為了滿足廣大程式猿的需求，在這裡就選擇360圖片吧，網址是image.so.com。希望大家學會後身體一天不如一天。首先我們來分析這個網頁，開啟開發者工具，滑動頁面等加載出新的圖片

python爬取豆瓣網頁短評實戰！

首先我們開啟我的父親母親的網頁介面：連結（https://book.douban.com/subject/20389038/comments/），可以觀察到如下介面以及讀者對本書的評價：接下來我們直接附上程式碼：# 書名：我的父親母親 # 作者: [英] 多麗絲·萊辛 #

python爬取動態網頁

一、robobrowser庫的下載安裝。

二、使用方法

相關推薦