1. 程式人生 > >Python爬蟲——動漫zj(manhua站)

Python爬蟲——動漫zj(manhua站)

目錄

3,注意點

1,使用到的庫

from urllib.parse import urlencode
import requests
import re
import json
import execjs
from bs4 import BeautifulSoup
from pymongo import MongoClient
import os

2,大致步驟

  1. 根據漫畫名稱獲取漫畫url
  2. 根據漫畫url獲取漫畫每一話的url
  3. 獲取每一話所有的圖片url
  4. 將url及其相關資訊存入MongoDB
  5. 成功請求每個url,加載出圖片再將其下載到本地

3,注意點

  • 步驟一中,漫畫的url並不在返回的頁面shtml中,而是存在非同步加載出的search.php

​​​​​​​

  • 步驟三,在我們開啟每一話的頁面時,雖然頁面上只有其中一張圖片,但其實此話的每張圖片url都已經存在返回shtml的某一角落被特別加密過。我們需要用正則式將它提取出來稍微修改一下,再利用execjs執行該js程式碼。

  • 下載圖片時,發現存在防盜鏈

獲取每一張圖片的URL後,會發現請求該圖片時,總會出現403的狀況。只需要在headers裡面加上的Referer就好了,referer表示你是從那個url跳轉過來的。如果沒有referer,網站則會判斷你不是人 為操作。

4,具體程式碼實現