Python如何爬取動態網頁資料

阿新 • • 發佈：2019-01-13

1.引言

說到爬網頁，我們一般的操作是先檢視原始碼或者審查元素，找到資訊所在節點，然後用 beautifulsoup/xpth/re 來獲取資料，這是我們對付靜態網頁的常用手段。
但大家也知道，現在的網頁大多都是動態的了，即資料是通過js渲染載入的，對付靜態網頁那一套在這根本不討好，所以，掌握爬取動態載入資料的方法就顯得十分必要了。
下面以爬取中國電影網中國票房排行前500為例講解下獲取動態資料的一般步驟。

2.例項與步驟

2.1首先開啟資料頁面，右鍵選擇審查元素，然後選擇Network——>XHR,可以看到，現在裡面什麼都沒有。
這裡寫圖片描述

2.2然後點選瀏覽器的重新整理按鈕或者按F5重新整理頁面，可以看到，有一條資料出現了，這個連結就是獲取資料的頁面API，選擇Response，可以看到，它是以Json格式返回的資料，我們需要的資訊都在裡面。
這裡寫圖片描述

2.3點選頁面上的下一頁，多獲取幾條資料，以便找到它們之間的聯絡。
這裡寫圖片描述
可以看到，圖上的幾條資料鏈接只有最後的頁碼不同，簡直不要太友好！複製一條連結儲存，用作程式碼模擬參考。

2.4知道了資料鏈接間的關係，我們就可以在程式碼裡面模擬了。比如我們要獲取前50頁的資訊，那就可以這樣寫。

  for i in range(1, 51, 1):
        src = 'http://www.cbooo.cn/Mdata/getMdata_movie?area=50&type=0&year=0&initial=%E5%85%A8%E9%83%A8&pIndex=' + str(i)
        getHtml(src)

2.5通過以上操作我們得到了返回的資料，但返回的是Json格式的資料，所以我們需要對它進行解析，然後從中得到每部電影的ID（可以發現，每部電影的連結都是這種格式：http://www.cbooo.cn/m/641515，後面的數字是電影的ID，這是我們需要從返回的Json資料裡得到的東西。），得到ID後，組成電影連結，之後就是靜態頁面的操作了。

import requests
import json
def getHtml(src):
    html = requests.get(src).content.decode('utf-8')
    for con in json.loads(html)['pData' 
]:
        url = 'http://www.cbooo.cn/m/' + str(con['ID'])
        newhtml = requests.get(url).content.decode('utf-8')

3.總結

獲取動態資料的關鍵是找到“頁面獲取資料的API”，然後找到這種資料鏈接間的關係，之後對返回的資料進行解析，從中得到需要的資料。

Python如何爬取動態網頁資料

1.引言

2.例項與步驟

3.總結

Python如何爬取動態網頁資料

python 爬取動態網頁（百度圖片）

Python3+Selenium爬取動態網頁資料

python爬取動態網頁

Python使用selenium爬取動態網頁時遇到的問題

[Python爬蟲]Scrapy配合Selenium和PhantomJS爬取動態網頁

Python爬蟲之爬取動態頁面資料

爬取動態網頁：Selenium

爬取動態網頁中關於構造瀏覽器頭的註意事項

網路爬蟲：爬取動態網頁

python 爬取靜態網頁

python 爬取了租房資料

用Python爬取微博資料生成詞雲圖片

R語言爬取動態網頁之環境準備

Python 爬取 B 站資料分析，宋智孝李光洙誰最受中國粉絲喜愛

Python爬取微博資料生成詞雲圖片

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python3網路爬蟲：requests爬取動態網頁內容

爬取動態網站資料（soup的css方式處理資料）

Python 爬取 Yahoo! Finance 資料問題總結

Python如何爬取動態網頁資料

1.引言

2.例項與步驟

3.總結

相關推薦