1. 程式人生 > >Scrapy爬蟲遇到 ‘Forbidden by robots.txt’的問題

Scrapy爬蟲遇到 ‘Forbidden by robots.txt’的問題

今天在爬知乎精華時,出現了‘Forbidden by robots.txt’的問題

瞭解scrapy在爬取設定的url之前,它會先向伺服器根目錄請求一個txt檔案,這個檔案規定了爬取範圍

scrapy會遵守這個範圍協議,檢視自己是否符合許可權,出錯說明不符合,所以我們只要不遵守這個協議就Ok了

在settings.py中找到 ROBOTSSTXT_OBEY

ROBOTSTXT_OBEY=False

 

問題就解決了。