1. 程式人生 > >模仿使用者行為的爬蟲設計方法及工具推薦

模仿使用者行為的爬蟲設計方法及工具推薦

為了更加便捷高效地工作,程式設計師在設計爬蟲之初就會考慮,用爬蟲去模擬使用者的行為,以減少IP被封的機率。模擬使用者行為一是為了太陽ip軟體爬取資料非同步載入頁面方面,二也是為了爬蟲行為高度模仿使用者行為,最終目的還是為了高匿——高度隱匿自己的真實ip。

那麼,應該怎麼做高匿呢?

1、user-agent:這也是一個比較重要的資料特徵,要做在爬蟲裡面靈活設定,最好和目前主流瀏覽器環境的user-agent一模一樣,隨著瀏覽器的版本變化,你的user-agent也會變化。pyspider的user-agent是在一個爬蟲專案裡面做爬取全域性設定

2、如果高度模仿瀏覽器請求,有個簡便方法:看chrome網路請求的curl all copy資訊。

3、cookie:這個東西可能會被很多爬蟲開發者所忽視,實際上它是非常重要的,cookie行為的模擬不但涉及到使用者行為模擬,而且會直接導致某些訪問請求碰到許可權或者其他方面的錯誤。pyspider的cookie可以直接在爬取請求裡面設定。

4、IP隱藏,現在網上有很多高匿http代理,所謂高匿代理,就是代理對被訪問伺服器完全隱藏其被代理的客戶端,
比如:模仿使用者行為的爬蟲設計方法及工具推薦
注意:使用網上的高匿代理時,一定要先在自己的伺服器上試一下,防止偽高匿發生,在Pyspider的Phantomjs中使用代理伺服器,需要單獨啟動phantomjs服務,啟動命令:
             
使用上面這個命令,必須是pyspider0.37及其以後版本。對於Selenium webdriver,怎麼用代理,看Selenium文件吧。

5、登入session問題:session問題在客戶端主要是cookie問題,如果你能做到cookie全域性模擬,session肯定不是問題。
推薦使用這款軟體,很清爽簡單,操作便利,節省一大半操作時間。