1. 程式人生 > 其它 >Python爬蟲實戰:知音漫客漫畫採集

Python爬蟲實戰:知音漫客漫畫採集

前言

這年頭看啥都要會員,各種VIP,沒有VIP各種時長廣告,就算你開了VIP還會有超級VIP出來,簡直無止境【絕對沒有內涵誰】,作為一個資深白嫖者,白嫖一時爽,一直白嫖一直爽【咳咳,該用還得開,不要學我】

恰巧同事找我借某平臺VIP,看個漫畫都要VIP了,於是呢我就給爬了下來,所以就有了這篇文章。為了過審,我把爬取VIP的內容全部去掉了,肯定有人會問,既然爬的都是公開內容,那麼我在網站上直接看不就得了?這種問題回多了就沒意思了,直接先去看我前面的爬蟲教程文章。

廢話不多說,直接進入今天 的主題

爬取目標

網址:國內知名原創動漫平臺_鬥破蒼穹漫畫官網_知音漫客網

效果展示

工具準備

開發工具:pycharm 開發環境:python3.7, Windows11 使用工具包:requests

專案思路解析

選擇自己需要的動漫這裡辣條選擇的是鬥破蒼穹,動漫看蕭炎裝逼是在太難受了,三年之約硬生生更新了快5年,想辦法把它的漫畫全給採集了一次到位,搜尋需要的漫畫名,獲取首頁的資料資訊進行檢視,先分析資料是否為載入的動態資料。

需要獲取的資料抓包並未獲取到,嘗試進入漫畫頁面,看看能不能獲取到資料 知音漫客的很多資料都是vip的需要付費觀看,但是還是會加載出資料資訊,資料裡依舊會有我們的漫畫資訊。

所以說付費的內容不可怕,重點能找的到就好了(狗頭保命.jpg) 當前的資料就是知音漫客的圖片地址。

知道資料資訊後開始分析目標網址,怎麼控制資料的翻頁 https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_399h&isWebp=1&quality=middle 翻頁的請求可以明顯看出是由chapter_newid控制的後面的數字就是目標的章節資訊,翻譯的網址也能正常構建出來,剩下的就是解析資料儲存資料了。

簡易原始碼分享

import requests
import os
​
​
def download(img_url_list, title):
  # 每個章節   設定單獨的資料夾
  path = '鬥破蒼穹/' + title
  if not os.path.exists(path):
    os.mkdir(path)
  i = 0
  for img_url in img_url_list:
    res = requests.get(img_url).content
    print(res)
    f = open(path + '/' + str(i) + '.jpg', 'wb')
    f.write(res)
    i += 1
    print(f'正在下載:{title}第{str(i)}張')
​
​
​
​
​
def parse_data(url):
  response = requests.get(url).json()
  chapter_name = response['data']['current_chapter']['chapter_name']
  chapter_img_list = response['data']['current_chapter']['chapter_img_list']
  download(chapter_img_list, chapter_name)
​
​
​
​
​
​
if __name__ == '__main__':
  for i in range(30, 800):
    url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)
    parse_data(url)

一個真事:我在一個接單群,有個朋友接了一個爬蟲的單,然後進去了【沒錯就是進局子裡了】,事情大概就是他爬取了一個婚戀交友平臺網站的一些資訊的單子,然後釋出這個單子的人,利用這些資料去詐騙獲利了,所以我這個朋友也跟著進去了,現在還沒結果。

搞爬蟲一定要注意界限,遵法守紀!