1. 程式人生 > >爬蟲避免環路應該使用的技術

爬蟲避免環路應該使用的技術

事情 廣度 監視 技術 站點 ima 計算 壓縮 文件系統

1、規範化URL

  將URL轉化為標準形式避免語法上的別名

2、廣度優先的爬行  

3、節流

  限制一段時間機器人可以從一個web站點的頁面數量

4、限制URL的大小

機器人會拒絕爬行超出特定長度的(通常是1kb)的URL。

5、URL/站點黑名單

維護一個與機器人環路和陷阱想對應的已知站點及URL列表。

6、模式檢測

文件系統的符號鏈接和類似的錯誤配置所造成的環路會遵循某種模式。(比如 URL“subdir/image/subdir/image”)

7、內容指紋

使用內容指紋的機器人會獲取頁面內容中的字節,並計算出一個校驗和,這個校驗和是頁面內容的壓縮表示形式。

8、人工監視

設計的機器人應該提供診斷和日誌功能,這樣人類可以監視機器人的進展,如果發生了什麽異常的事情就可以很快收到警告。

爬蟲避免環路應該使用的技術