限制bing等搜尋引擎頻繁抓取 - 蜘蛛爬行頻率和次數

阿新 • • 發佈：2022-05-20

User-agent:msnbot

Visit-time:0855-1700
說明:指定每天允許BING蜘蛛採集的時間段，格式為mmss-mmss，例如0800-1700，即限制BING蜘蛛08:00-17:00訪問。

User-agent:msnbot
Request-rate:1/5 0900-1045
說明：限制BING蜘蛛在允許的時間段內(0900-1045)隔多少秒採集一次網頁，例如1/5 0900-1055，即限制BING蜘蛛90:00-10:55訪問，且每5秒訪問一次。

User-agent:msnbot
Crawl-delay:3600
說明:限制BING蜘蛛兩次抓取的間隔時間，單位為秒。建議在蜘蛛的抓取頻率過高時，可以制定蜘蛛抓取時間間隔，來降低伺服器的負擔,減少流量的不必要流失。

國內的搜尋引擎蜘蛛百度蜘蛛：baiduspider 搜狗蜘蛛：sogou spider 有道蜘蛛：YodaoBot和OutfoxBot 搜搜蜘蛛： Sosospider 國外的搜尋引擎蜘蛛 google蜘蛛： googlebot yahoo蜘蛛：Yahoo！ Slurp alexa蜘蛛：ia_archiver bing蜘蛛（MSN）：msnbot bing蜘蛛（MSN）：msnbot robots.txt內容格式非常簡單，用文字檔案的每一行代表一個約定。 • User-Agent：適用下列規則的漫遊器 • Allow：充許被抓取的網頁 • Disallow：要攔截的網頁 Robots.txt的兩個常用符號 “*”：匹配0或多個任意字元（也有所有的意思） “$”：匹配行結束符。禁止某一蜘蛛抓取： User-agent：蜘蛛名（上面介紹得有） Disallow： / 只充許某一蜘蛛抓取： User-agent：蜘蛛名（上面介紹得有） Disallow： User-agent： * Disallow： / robots.txt擴充套件協議 robots協議中除allow，disallow外，其擴充套件協議中還有Request-rate，Crawl-delay，Visit-time等，可以通過率這些協議來限制蜘蛛訪問的頻率，訪問的時間等。一、Crawl-delay 這個協議可以指定蜘蛛兩次抓取時間的間隔值。語法：Crawl-delay:XX "XX"，是指兩間抓取的間隔時間，單位為秒。如果蜘蛛的抓取頻率太高可以指定這個值，來減輕伺服器的負擔。二、Visit-time 指定蜘蛛的訪問時間。語法：Visit-time:0930-1630 開頭的文字行指定每天允許網路蜘蛛採集的時間段，格式為mmss-mmss，例如0930-1630 三、Request-rate 指定採集的頻率語法：Request-rate:1/5 0600-0845 指定同一個網路蜘蛛每多少秒採集一次網頁和採集時間段，例如1/5 0600-0845。四、禁止指定型別字尾的檔案抓取 Disallow: .jpg$ 禁止抓取的格式 Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$ Disallow: .jpg$ 禁止抓取的格式 Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$ 另外，在網頁中增加名字為“robots”的meta標籤，也可以讓某些網路蜘蛛不採集這一頁。不過，這也只是某些網路蜘蛛認同，不是大家都認同的標準。示例如下。 <meta name="robots" content="noindex,nofollow" /> ============================================================== 例項例1.禁止所有搜尋引擎訪問網站的任何部分 User-agent: * Disallow: / 例2.允許所有的robot訪問 (或者也可以建一個空檔案 "/robots.txt") User-agent: * Allow: / 另一種寫法是 User-agent: * Disallow: 例3. 僅禁止Baiduspider訪問您的網站 User-agent: Baiduspider Disallow: / 例4. 僅允許Baiduspider訪問您的網站 User-agent: Baiduspider Allow: / 例5. 禁止spider訪問特定目錄在這個例子中，該網站有三個目錄對搜尋引擎的訪問做了限制，即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開宣告，而不能寫成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ 例6. 允許訪問特定目錄中的部分url User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look 例7. 使用"*"限制訪問url 禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。 User-agent: * Disallow: /cgi-bin/*.htm 例8. 使用"$"限制訪問url 僅允許訪問以".htm"為字尾的URL。 User-agent: * Allow:/ .htm$ 例9. 禁止訪問網站中所有的動態頁面 User-agent: * Disallow: /*?* 例10. 禁止Baiduspider抓取網站上所有圖片僅允許抓取網頁，禁止抓取任何圖片。 User-agent: Baiduspider Disallow: /.jpg$ Disallow: / .jpeg$ Disallow:/ .gif$ Disallow:/ .png$ Disallow: /.bmp$ 例11. 僅允許Baiduspider抓取網頁和。gif格式圖片允許抓取網頁和gif格式圖片，不允許抓取其他格式圖片 User-agent: Baiduspider Allow: .gif$ Disallow: /.jpg$ Disallow:/ .jpeg$ Disallow:/ .png$ Disallow: /.bmp$ 例12. 僅禁止Baiduspider抓取。jpg格式圖片 User-agent: /Baiduspider Disallow:/ .jpg$

限制bing等搜尋引擎頻繁抓取 - 蜘蛛爬行頻率和次數

User-agent:msnbot

限制bing等搜尋引擎頻繁抓取 - 蜘蛛爬行頻率和次數

繞過卡巴斯基等殺軟抓取 lsass 記憶體踩坑

python3用urllib抓取貼吧郵箱和QQ例項

如何用python抓取vip加密視訊和1400篇文章的故事

使用bmp和selenium抓取瀏覽器的請求和結果

winserver中通過IIS配置篩選規則遮蔽蜘蛛、爬蟲非法抓取

淺談Google蜘蛛抓取的工作原理

iOS 如何抓取執行緒的“方法呼叫棧”？

在Janus中抓取WebRTC流量

python+mongodb資料抓取詳細介紹

python3 BeautifulSoup模組使用字典的方法抓取a標籤內的資料示例

python通過連結抓取網站詳解

python抓取多種型別的頁面方法例項

python requests抓取one推送文字和圖片程式碼例項

Python 50行爬蟲抓取並處理圖靈書目過程詳解

Numpy對陣列的操作：建立、變形(升降維等)、計算、取值、複製、分割、合併

基於python3抓取pinpoint應用資訊入庫

Python3簡單爬蟲抓取網頁圖片程式碼例項

golang抓取網頁並分析頁面包含的連結方法

Python requests模組基礎使用方法例項及高階應用(自動登陸,抓取網頁原始碼)例項詳解

限制bing等搜尋引擎頻繁抓取 - 蜘蛛爬行頻率和次數

User-agent:msnbot

相關推薦