1. 程式人生 > 其它 >限制bing等搜尋引擎頻繁抓取 - 蜘蛛爬行頻率和次數

限制bing等搜尋引擎頻繁抓取 - 蜘蛛爬行頻率和次數

User-agent:msnbot

Visit-time:0855-1700
說明:指定每天允許BING蜘蛛採集的時間段,格式為mmss-mmss,例如0800-1700,即限制BING蜘蛛08:00-17:00訪問。

User-agent:msnbot
Request-rate:1/5 0900-1045
說明:限制BING蜘蛛在允許的時間段內(0900-1045)隔多少秒採集一次網頁,例如1/5 0900-1055,即限制BING蜘蛛90:00-10:55訪問,且每5秒訪問一次。

User-agent:msnbot
Crawl-delay:3600
說明:限制BING蜘蛛兩次抓取的間隔時間,單位為秒。建議在蜘蛛的抓取頻率過高時,可以制定蜘蛛抓取時間間隔,來降低伺服器的負擔,減少流量的不必要流失。

國內的搜尋引擎蜘蛛   百度蜘蛛:baiduspider   搜狗蜘蛛:sogou spider   有道蜘蛛:YodaoBot和OutfoxBot   搜搜蜘蛛: Sosospider   國外的搜尋引擎蜘蛛 google蜘蛛: googlebot   yahoo蜘蛛:Yahoo! Slurp   alexa蜘蛛:ia_archiver   bing蜘蛛(MSN):msnbot   bing蜘蛛(MSN):msnbot   robots.txt內容格式非常簡單,用文字檔案的每一行代表一個約定。   • User-Agent: 適用下列規則的漫遊器   • Allow: 充許被抓取的網頁   • Disallow: 要攔截的網頁   Robots.txt的兩個常用符號   “*”: 匹配0或多個任意字元(也有所有的意思)   “$”:匹配行結束符。   禁止某一蜘蛛抓取: User-agent: 蜘蛛名(上面介紹得有)   Disallow: /   只充許某一蜘蛛抓取: User-agent: 蜘蛛名(上面介紹得有)   Disallow:   User-agent: *   Disallow: /   robots.txt擴充套件協議 robots協議中除allow,disallow外,其擴充套件協議中還有Request-rate,Crawl-delay,Visit-time等,可以通過率這些協議來限制蜘蛛訪問的頻率,訪問的時間等。   一、Crawl-delay 這個協議可以指定蜘蛛兩次抓取時間的間隔值。 語法:Crawl-delay:XX "XX",是指兩間抓取的間隔時間,單位為秒。如果蜘蛛的抓取頻率太高可以指定這個值,來減輕伺服器的負擔。   二、Visit-time 指定蜘蛛的訪問時間。 語法:Visit-time:0930-1630 開頭的文字行指定每天允許網路蜘蛛採集的時間段,格式為mmss-mmss,例如0930-1630   三、Request-rate 指定採集的頻率 語法:Request-rate:1/5 0600-0845 指定同一個網路蜘蛛每多少秒採集一次網頁和採集時間段,例如1/5 0600-0845。   四、禁止指定型別字尾的檔案抓取   Disallow: .jpg$ 禁止抓取的格式 Disallow: .jpeg$  Disallow: .gif$ Disallow: .png$ Disallow: .bmp$ Disallow: .jpg$ 禁止抓取的格式 Disallow: .jpeg$  Disallow: .gif$ Disallow: .png$ Disallow: .bmp$   另外,在網頁中增加名字為“robots”的meta標籤,也可以讓某些網路蜘蛛不採集這一頁。不過,這也只是某些網路蜘蛛認同,不是大家都認同的標準。示例如下。   <meta name="robots" content="noindex,nofollow" /> ==============================================================   例項   例1.禁止所有搜尋引擎訪問網站的任何部分 User-agent: *  Disallow: /   例2.允許所有的robot訪問 (或者也可以建一個空檔案 "/robots.txt") User-agent: *  Allow: /  另一種寫法是  User-agent: *  Disallow:   例3. 僅禁止Baiduspider訪問您的網站 User-agent: Baiduspider  Disallow: /   例4. 僅允許Baiduspider訪問您的網站 User-agent: Baiduspider  Allow: /   例5. 禁止spider訪問特定目錄  在這個例子中,該網站有三個目錄對搜尋引擎的訪問做了限制,即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開宣告,而不能寫成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *  Disallow: /cgi-bin/  Disallow: /tmp/  Disallow: /~joe/   例6. 允許訪問特定目錄中的部分url User-agent: *  Allow: /cgi-bin/see  Allow: /tmp/hi  Allow: /~joe/look   例7. 使用"*"限制訪問url  禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。 User-agent: *  Disallow: /cgi-bin/*.htm   例8. 使用"$"限制訪問url  僅允許訪問以".htm"為字尾的URL。 User-agent: *  Allow:/ .htm$   例9. 禁止訪問網站中所有的動態頁面 User-agent: *  Disallow: /*?*   例10. 禁止Baiduspider抓取網站上所有圖片  僅允許抓取網頁,禁止抓取任何圖片。 User-agent: Baiduspider  Disallow: /.jpg$  Disallow: / .jpeg$  Disallow:/ .gif$  Disallow:/ .png$  Disallow: /.bmp$   例11. 僅允許Baiduspider抓取網頁和。gif格式圖片  允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片 User-agent: Baiduspider  Allow: .gif$  Disallow: /.jpg$  Disallow:/ .jpeg$  Disallow:/ .png$  Disallow: /.bmp$   例12. 僅禁止Baiduspider抓取。jpg格式圖片 User-agent: /Baiduspider  Disallow:/ .jpg$