Python爬蟲實戰:知音漫客漫畫採集
阿新 • • 發佈:2021-11-13
前言
這年頭看啥都要會員,各種VIP,沒有VIP各種時長廣告,就算你開了VIP還會有超級VIP出來,簡直無止境【絕對沒有內涵誰】,作為一個資深白嫖者,白嫖一時爽,一直白嫖一直爽【咳咳,該用還得開,不要學我】
恰巧同事找我借某平臺VIP,看個漫畫都要VIP了,於是呢我就給爬了下來,所以就有了這篇文章。為了過審,我把爬取VIP的內容全部去掉了,肯定有人會問,既然爬的都是公開內容,那麼我在網站上直接看不就得了?這種問題回多了就沒意思了,直接先去看我前面的爬蟲教程文章。
廢話不多說,直接進入今天 的主題
爬取目標
網址:
效果展示
工具準備
開發工具:pycharm 開發環境:python3.7, Windows11 使用工具包:requests
專案思路解析
選擇自己需要的動漫這裡辣條選擇的是鬥破蒼穹,動漫看蕭炎裝逼是在太難受了,三年之約硬生生更新了快5年,想辦法把它的漫畫全給採集了一次到位,搜尋需要的漫畫名,獲取首頁的資料資訊進行檢視,先分析資料是否為載入的動態資料。
需要獲取的資料抓包並未獲取到,嘗試進入漫畫頁面,看看能不能獲取到資料 知音漫客的很多資料都是vip的需要付費觀看,但是還是會加載出資料資訊,資料裡依舊會有我們的漫畫資訊。
所以說付費的內容不可怕,重點能找的到就好了(狗頭保命.jpg) 當前的資料就是知音漫客的圖片地址。
知道資料資訊後開始分析目標網址,怎麼控制資料的翻頁
簡易原始碼分享
import requests
import os
def download(img_url_list, title):
# 每個章節 設定單獨的資料夾
path = '鬥破蒼穹/' + title
if not os.path.exists(path):
os.mkdir(path)
i = 0
for img_url in img_url_list:
res = requests.get(img_url).content
print(res)
f = open(path + '/' + str(i) + '.jpg', 'wb')
f.write(res)
i += 1
print(f'正在下載:{title}第{str(i)}張')
def parse_data(url):
response = requests.get(url).json()
chapter_name = response['data']['current_chapter']['chapter_name']
chapter_img_list = response['data']['current_chapter']['chapter_img_list']
download(chapter_img_list, chapter_name)
if __name__ == '__main__':
for i in range(30, 800):
url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)
parse_data(url)
一個真事:我在一個接單群,有個朋友接了一個爬蟲的單,然後進去了【沒錯就是進局子裡了】,事情大概就是他爬取了一個婚戀交友平臺網站的一些資訊的單子,然後釋出這個單子的人,利用這些資料去詐騙獲利了,所以我這個朋友也跟著進去了,現在還沒結果。
搞爬蟲一定要注意界限,遵法守紀!