1. 程式人生 > >只能在瀏覽器正常訪問後的一段之間才能用爬蟲爬取

只能在瀏覽器正常訪問後的一段之間才能用爬蟲爬取

早期 www cookie span com 折騰 漫畫 style class

依然是爬取五等分的花嫁漫畫。在爬取時發現需要獲得的某個數據只能在瀏覽器正常打開後才能獲取,否則獲得的是空數據。

折騰了cookie也沒有用。想啊想,看啊看,試啊試,最終還是沒有解決問題

又去參考了前輩的代碼,加了header中的referer終於解決了問題。

headers = {
        Referer:
            https://www.dm5.com/manhua-bianfuxia-fuzhizuiqian
        }

現在還是不明白為什麽。先貼個關於referer的解釋(發現這個單詞竟然早期拼錯,然後沿用下來了。我就覺得試referrer)

HTTP Referer是header的一部分,當瀏覽器向web服務器發送請求的時候,一般會帶上Referer,告訴服務器我是從哪個頁面鏈接過來的,服務器基此可以獲得一些信息用於處理

參考文章:

爬取動漫屋網站

只能在瀏覽器正常訪問後的一段之間才能用爬蟲爬取