Python爬蟲——動漫zj(manhua站)
阿新 • • 發佈:2018-12-14
目錄
1,使用到的庫
from urllib.parse import urlencode import requests import re import json import execjs from bs4 import BeautifulSoup from pymongo import MongoClient import os
2,大致步驟
- 根據漫畫名稱獲取漫畫url
- 根據漫畫url獲取漫畫每一話的url
- 獲取每一話所有的圖片url
- 將url及其相關資訊存入MongoDB
- 成功請求每個url,加載出圖片再將其下載到本地
3,注意點
- 步驟一中,漫畫的url並不在返回的頁面shtml中,而是存在非同步加載出的search.php
- 步驟三,在我們開啟每一話的頁面時,雖然頁面上只有其中一張圖片,但其實此話的每張圖片url都已經存在返回shtml的某一角落被特別加密過。我們需要用正則式將它提取出來稍微修改一下,再利用execjs執行該js程式碼。
- 下載圖片時,發現存在防盜鏈
獲取每一張圖片的URL後,會發現請求該圖片時,總會出現403的狀況。只需要在headers裡面加上的Referer就好了,referer表示你是從那個url跳轉過來的。如果沒有referer,網站則會判斷你不是人 為操作。