Python 爬蟲-Robots協議
阿新 • • 發佈:2017-07-25
spa eight gen 網絡 width 次數 image 審查 www
2017-07-25 21:08:16
一、網絡爬蟲的規模
二、網絡爬蟲的限制
? 來源審查:判斷User‐Agent進行限制
檢查來訪HTTP協議頭的User‐Agent域,只響應瀏覽器或友好爬蟲的訪問
? 發布公告:Robots協議
告知所有爬蟲網站的爬取策略,要求爬蟲遵守
三、Robots 協議
作用:網站告知網絡爬蟲哪些頁面可以抓取,哪些不行
形式:在網站根目錄下的robots.txt文件
如果網站不提供Robots協議則表示該網站允許任意爬蟲爬取任意次數。
類人類行為原則上可以不遵守Robots協議
https://www.baidu.com/robots.txt
http://news.sina.com.cn/robots.txt
舉例:
https://www.jd.com/robots.txt User‐agent: * Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User‐agent: EtaoSpider Disallow: / User‐agent: HuihuiSpider Disallow: / User‐agent: GwdangSpider Disallow: / User‐agent: WochachaSpider Disallow: / # 註釋,*代表所有,/代表根目錄 User‐agent: * Disallow: /
Python 爬蟲-Robots協議