聽說國漫最近崛起了，那我們就來爬幾部國漫看看，居然有反爬！

阿新 • • 發佈：2020-08-27

1.前言

說實話這次的爬蟲可能是目前我遇到的最難的一個爬蟲，主要之前爬取的都是一些靜態資源的網站，這次的網站雖然反爬機制雖然也只是低層次的，但是對於新手的我來說也算是比較難的了。

2.1基本思路

事實證明也的確是這樣的。就是先爬取漫畫所有章節的連結，之後在通過章節連結二次訪問再爬取該章節中所有的漫畫連結，之後通過漫畫連結三次訪問並進行儲存操作即可。但是具體操作之後才發現動漫之家在這其中的確還是下了很多的套的。

2.2爬取章節連結

這一步的問題不大按部就班的使用xpath定位元素的位置就行了。只需要簡單分析一下網頁結構即可。

這樣我們便能通過xpath直接定位得到了

def getLinks(html):
    chapter_link=[]
    chapter_title=[]
    parse=parsel.Selector(html)
    links=parse.xpath('//div[@class="tab-content tab-content-selected zj_list_con autoHeight"]/ul[@class="list_con_li autoHeight"]/li/a/@href').getall()
    titles=parse.xpath('//div[@class="tab-content tab-content-selected zj_list_con autoHeight"]/ul[@class="list_con_li autoHeight"]/li/a/span[@class="list_con_zj"]/text()').getall()
    for link in links:
        chapter_link.insert(0,link)
    for title in titles:
        chapter_title.insert(0, title)
    return chapter_link,chapter_title

只要注意他這裡章節是降序排列的，所以我們爬取的過程中需要將他翻轉過來，所以不能只用append方法，應用insert方法。

2.3爬取漫畫連結

從這裡開始，就開始要命了。因為之前根本就沒遇到過，就比較難搞。

2.3.1無法檢視原始碼

這裡我嘗試去看他的網頁原始碼，但是發現滑鼠右鍵根本是點不動的，這就說明這玩意兒看不了原始碼？？？

之後自己通過F12發現，F12還是能用的，說明動漫之家還是給了條活路的。

但是百度完之後發現這還只是最低階的反爬操作，只需要通過在地址前面加上view-source:就能顯示網頁原始碼了。

2.3.2動態載入

但是看了原始碼之後自己搜了一下漫畫的連結發現，這怎麼啥也沒有啊，玩個錘子啊！！

這時候百度了之後才知道這叫動態載入，動態載入主要是下面兩種類別;

1. 外部載入
2. 內部載入
這裡我們檢查之後發現是屬於外部載入的情況。
其實之前博主就看到script裡面有些資料看著很眼熟，也就發現了，也沒去深究。主要就是在下面的紅色區域中：
漫畫連結：https://images.dmzj.com/img/chapterpic/3059/14450/14397725505788.jpg

既然這樣起碼還是能夠拼湊出圖片的連結的，那麼我們就把這些資料先提取出來。

def getImgs(link):
    pic_url=[]
    response=requests.get(link,headers=headers)
    html=BeautifulSoup(response.text,'lxml')
    script_info=html.script
    one = re.findall("\|(\d{4})\|", str(script_info))[0]
    two = re.findall("\|(\d{5})\|", str(script_info))[0]
    threes=re.findall('\d{13,14}',str(script_info))

2.3.3漫畫亂序

這個我的時候就看到了，但是自己一直想不通他這個順序是怎麼排列的，也想了好長的時間一直沒想出來。但是這老哥是真的牛逼，隨便一試還就真TM試出來了，我是真的服。
他的最後一部分的數字要麼是13位，要麼就是14位，那麼怎麼排序的呢，數字還能怎麼排序？比大小唄，但是那樣的話13位的要麼並排在最後面，要麼並排在最前面但是事實上卻不是這樣，那麼就只能是13位的末尾添0再進行比較大小的操作。我尼瑪，現在想想，我是真特麼的蠢，都沒想到這個。

    for i, three in enumerate(threes):
        if len(three) == 13:
            threes[i] = three + '0'
    threes = sorted(threes, key=lambda x: int(x))
    for three in threes:
        if three[-1]=='0':
            pic_url.append("https://images.dmzj.com/img/chapterpic/"+one+"/"+two+"/"+three[:-1]+".jpg")
        else:
            pic_url.append("https://images.dmzj.com/img/chapterpic/" + one + "/" + two + "/" + three + ".jpg")

2.3.4下載漫畫報403

說實話這個要是沒有大哥的部落格，我可能還得耗上好長的時間。
這裡我們主要是發現如果你是通過他網站內部訪問該圖片連結的話，那麼圖片是可以正常顯示的，但是如果我們重新重新整理一下即從外部直接訪問該連結圖片就無法顯示了，就如下圖所示:

這就是一種典型的通過Referer的反扒爬蟲手段！

Referer可以理解為來路，先開啟章節URL連結，再開啟圖片連結。開啟圖片的時候，Referer的資訊裡儲存的是章節URL。
舉個簡單的例子：

假設你的家只有一扇門，那麼很顯然想要進你家，就必須要經過那扇門，但是現在有一個人是直接往你家牆上鑿了個洞進來的，沒有經過你家的門，那麼很顯然你這肯定違法了。

解決起來其實也簡單，只要告訴瀏覽器，我的確是從你提供的入口進來的就行了。

# 下載漫畫
    headers1={
        'Referer': "章節連結",
    }
    response=requests.get(link,headers=headers1)

這樣我們就能正常訪問該圖片了。

2.4下載圖片

這裡就很簡單了之前我們已經說過下載檔案的兩種方式了，這裡我們還是選擇通過with open的方式來下載圖片。

# 下載漫畫
def download(url,links,dir_name):
    headers1={
        'Referer': url,
    }
    i=1;
    for link in links:
        pic_name = '%03d.jpg' % (i)
        new_dir_name = os.path.join(dir_name, pic_name)
        response=requests.get(link,headers=headers1)
        with open(new_dir_name, 'wb')as f:
            f.write(response.content)
            print(pic_name+"下載完成")
        i+=1

3.效果演示

4.原始碼

我的程式碼:

import requests
import parsel
import pypinyin
from bs4 import BeautifulSoup
import re
import os
import time

# 偽裝瀏覽器。設定請求頭
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",}
# 返回網頁的請求資訊
def askUrl(url):
    response=requests.get(url,headers=headers)
    html=response.content.decode('utf-8')
    return html

# 獲取所有的章節連結以及章節名稱
def getLinks(html):
    chapter_link=[]
    chapter_title=[]
    parse=parsel.Selector(html)
    links=parse.xpath('//div[@class="tab-content tab-content-selected zj_list_con autoHeight"]/ul[@class="list_con_li autoHeight"]/li/a/@href').getall()
    titles=parse.xpath('//div[@class="tab-content tab-content-selected zj_list_con autoHeight"]/ul[@class="list_con_li autoHeight"]/li/a/span[@class="list_con_zj"]/text()').getall()
    for link in links:
        chapter_link.insert(0,link)
    for title in titles:
        chapter_title.insert(0, title)
    return chapter_link,chapter_title

# 獲取所有漫畫的連結
def getImgs(link):
    pic_url=[]
    response=requests.get(link,headers=headers)
    html=BeautifulSoup(response.text,'lxml')
    script_info=html.script
    one = re.findall("\|(\d{4})\|", str(script_info))[0]
    two = re.findall("\|(\d{5})\|", str(script_info))[0]
    threes=re.findall('\d{13,14}',str(script_info))
    for i, three in enumerate(threes):
        if len(three) == 13:
            threes[i] = three + '0'
    threes = sorted(threes, key=lambda x: int(x))
    for three in threes:
        if three[-1]=='0':
            pic_url.append("https://images.dmzj.com/img/chapterpic/"+one+"/"+two+"/"+three[:-1]+".jpg")
        else:
            pic_url.append("https://images.dmzj.com/img/chapterpic/" + one + "/" + two + "/" + three + ".jpg")
    return pic_url

# 下載漫畫
def download(url,links,dir_name):
    headers1={
        'Referer': url,
    }
    i=1;
    for link in links:
        pic_name = '%03d.jpg' % (i)
        new_dir_name = os.path.join(dir_name, pic_name)
        response=requests.get(link,headers=headers1)
        with open(new_dir_name, 'wb')as f:
            f.write(response.content)
            print(pic_name+"下載完成")
        i+=1

# main方法
def main():
    manhuas=input("請輸入你要下載的漫畫名：")
    dir_name = r'D:\漫畫'
    if not os.path.exists(dir_name + './' + manhuas):
        os.makedirs(dir_name + './' + manhuas)
    dir_name=dir_name + './' + manhuas
    manhuas=pypinyin.pinyin(manhuas,style=pypinyin.NORMAL)
    name=''
    for manhua in manhuas:
        name=name+''.join(manhua)
    url="https://www.dmzj.com/info/"+name+".html"
    html=askUrl(url)
    links=getLinks(html)[0]
    names = getLinks(html)[1]
    for i,link in enumerate(links):
        if not os.path.exists(dir_name + './' + str(names[i])):
            os.makedirs(dir_name + './' + str(names[i]))
        print("開始下載："+names[i])
        imglinks=getImgs(link)
        download(link,imglinks,dir_name + './' + str(names[i]))
        print(names[i]+"下載完畢")
        print("休息一會兒，稍微繼續下載下一章")
        time.sleep(10)
        print("————————————————————————————————————————————————————————————————————————————————")
    print(manhuas+"已經完全下載完畢")

#主函式入口 
if __name__ == '__main__':
    main()

都看到這裡了，如果需要原始碼的話加下交流技術群：1136192749

轉載文，如有侵權聯絡小編刪除！

聽說國漫最近崛起了，那我們就來爬幾部國漫看看，居然有反爬！

1.前言說實話這次的爬蟲可能是目前我遇到的最難的一個爬蟲，主要之前爬取的都是一些靜態資源的網站，這次的網站雖然反爬機制雖然也只是低層次的，但是對於新手的我來說也算是比較難的了。

接著上一篇，既然環境搭建好了，那我們就開始落盤爬蟲===第一個scrapy爬蟲

1.爬蟲專案廠建立成功後大致的目錄結構如下: commands：大家可以暫時不給予考慮，這是在一個scrapy框架中啟動多個爬蟲的解決方案，大家有需要請關注本部落格的動態

最近剛學了python的爬蟲，那今天就寫個簡單的，一目瞭然

前言最近剛學了python的爬蟲，剛好可以用來爬取漂亮的圖片作為桌布，網上美圖網站有很多，比如：花瓣，堆糖。它們請求圖片資料的方式差不多類似，都是通過使用者不斷下滑載入新的圖片，這種請求技術就叫做Ajax,全稱

媳婦兒喜歡玩某音中的動漫特效，那我就用python做一個圖片轉化軟體。

最近某音上的動漫特效特別火，很多人都玩著動漫肖像，我媳婦兒也不例外。看著她這麼喜歡這個特效，我決定做一個圖片處理工具，這樣媳婦兒的動漫頭像就有著落了。編碼為了快速實現我們的目標，我們就不自己寫圖片處

Win11 預設開啟 VBS 引爭議，微軟：如果功能是可選的，那人們就不會開啟它

10 月 5 日訊息微軟期待已久的 Windows 11 從今天開始正式上市，人們對其整合的安全功能及其帶來的相當嚴格的系統要求議論紛紛。人們最新討論的焦點是 Virtualization-based Security（VBS）功能，它可能會對遊戲效

基於KubernetesK8S構建Jenkins持續整合平臺（然後天亮了。然後我們就繼續往前走。無論你想留在哪一天，天總會亮的。）

基於Kubernetes/K8S構建Jenkins持續整合平臺(下) Jenkins-Master-Slave架構圖回顧：安裝和配置NFS

我驚了！CompletableFuture居然有效能問題！

你好呀，我是歪歪。國慶的時候閒來無事，就隨手寫了一點之前說的比賽的程式碼，目標就是保住前 100 混個大賽的文化衫就行了。

是不是覺得國產3D動漫崛起了，但你知道3D動漫的製作過程嗎？

方法/步驟1: 我們首先來了解一下，3d動畫的定義。三維動畫軟體在計算機中首先建立一個虛擬的世界，設計師在這個虛擬的三維世界中按照要表現的物件的形狀尺寸建立模型以及場景，再根據要求設定模型的運動軌

訊息稱索尼可能對 PS + 會員漲價，因其最近收購了動漫公司

8 月 14 日訊息據外媒 Eurogamer 報道，索尼可能計劃對 PS + 會員漲價。因為索尼在近期收購了動漫流媒體公司 Crunchyroll，所以可能會有新的動漫內容加入 PS + 中。

金九銀十想去跳槽面試？那這份Java面經你真得看看了，寫的非常詳細！

前言前兩天在和朋友吃飯的時候聊到時間這個東西是真的過的好壞啊，金三銀四彷彿還在昨天。一眨眼金九銀十又快到了，對程式設計師來說這兩個是一年最合適的跳槽漲薪環節了，今年的你已經做好準備了嗎？不妨看看這篇文

宿舍晚上溫度高，那是你沒聽“鬼故事”

摘要：天熱嘛，出身冷汗就好了。這次給大家準備了一個AI鬼故事生成器，保證用完讓你瑟瑟發抖。

段譽身具凌波微波，動無常則，若危若安，一次能走一級臺階或者兩級臺階，他要爬一段30級的山路，問有多少種走法？分析如何計算，然後程式設計解答。進階問題：當他輕功熟練度提升，一次最多可以走三級，那就結果有什麼變化？後來走火入魔了，不能走一級，只能走二或三級，又有什麼變化？

題目段譽身具凌波微波，動無常則，若危若安，一次能走一級臺階或者兩級臺階，他要爬一段30級的山路，問有多少種走法？分析如何計算，然後程式設計解答。

聽說國漫最近崛起了，那我們就來爬幾部國漫看看，居然有反爬！

1.前言

2.1基本思路

2.2爬取章節連結

2.3爬取漫畫連結

2.3.1無法檢視原始碼

2.3.2動態載入

2.3.3漫畫亂序

2.3.4下載漫畫報403

2.4下載圖片

3.效果演示

4.原始碼

聽說國漫最近崛起了，那我們就來爬幾部國漫看看，居然有反爬！

接著上一篇，既然環境搭建好了，那我們就開始落盤爬蟲===第一個scrapy爬蟲

最近剛學了python的爬蟲，那今天就寫個簡單的，一目瞭然

媳婦兒喜歡玩某音中的動漫特效，那我就用python做一個圖片轉化軟體。

Win11 預設開啟 VBS 引爭議，微軟：如果功能是可選的，那人們就不會開啟它

基於KubernetesK8S構建Jenkins持續整合平臺（然後天亮了。然後我們就繼續往前走。無論你想留在哪一天，天總會亮的。）

我驚了！CompletableFuture居然有效能問題！

是不是覺得國產3D動漫崛起了，但你知道3D動漫的製作過程嗎？

訊息稱索尼可能對 PS + 會員漲價，因其最近收購了動漫公司

金九銀十想去跳槽面試？那這份Java面經你真得看看了，寫的非常詳細！

宿舍晚上溫度高，那是你沒聽“鬼故事”

壞巧克力兩個玩家輪流掰一塊mn的巧克力，其中一塊11的小塊是壞的。每次掰只能順著方格的邊界，沿直線一掰到底。每掰一次，掰的人把兩塊中不含壞巧克力的那塊吃掉，誰碰到最後那塊壞巧克力就算輸了。

如果你的 HTML 裡全是 div，那就要小心了

傳索尼可能會讓PS+會員漲價因為最近收購了動漫公司

如果你35歲恐慌了，那你真的該反思自己了···

不會吧，學過爬蟲連這個網站都爬不了？那Python豈不是白學了

如果到了35歲，你恐慌了，那你真的該反思自己了···

369：一旦接受了自己的軟弱，那我就是——無敵的

笑死，最低分誕生！打超Z聯賽忘帶向日葵，還有，對面的也忘了，那咱還打個球吖～

聽說國漫最近崛起了，那我們就來爬幾部國漫看看，居然有反爬！

1.前言

2.1基本思路

2.2爬取章節連結

2.3爬取漫畫連結

2.3.1無法檢視原始碼

2.3.2動態載入

2.3.3漫畫亂序

2.3.4下載漫畫報403

2.4下載圖片

3.效果演示

4.原始碼

相關推薦