反爬蟲技術現狀
阿新 • • 發佈:2018-12-11
一、通過User-Agent來控制訪問:只有屬於正常範圍的user-agent才能夠正常訪問。校驗請求Headers中的Referer欄位。 如果遇到了這類反爬蟲機制,可以直接在自己寫的爬蟲中新增Headers,將瀏覽器的User-Agent複製到爬蟲的Headers中;另外通過對請求的抓包分析,將Referer值修改為目標網站域名,就能很好的繞過。 二、通過IP限制來反爬蟲: 如果一個固定的ip在短暫的時間內,快速大量的訪問一個網站,那自然會引起注意,管理員可以通過一些手段把這個ip給封了,爬蟲程式自然也就做不了什麼了。 IP代理池,可以通過自己購買叢集雲服務來自建代理池,ip代理池生成隨機數,隨機選取! 三、通過JS指令碼來防止爬蟲:如驗證碼,滑動解鎖之類的。解決辦法:”PhantomJS“,PhantomJS是一個Python包,他可以在沒有圖形介面的情況下,完全模擬一個”瀏覽器“,js指令碼驗證什麼的再也不是問題了。 四、通過robots.txt來限制爬蟲:世界上做爬蟲最大最好的就是Google了,搜尋引擎本身就是一個超級大的爬蟲,Google開發出來爬蟲24h不間斷的在網上爬取著新的資訊,並返回給資料庫。 來看一下京東的’robots.txt’:這四個user-agent也是四個臭名昭著的惡性爬蟲。 User-agent: * Disallow: /?* Disallow: /pop/.html Disallow: /pinpai/