robots.txt 禁止收錄協議的寫法

阿新 • • 發佈：2019-02-12

1. 什麼是robots.txt?
　　robots.txt 是網站和搜尋引擎的協議的純文字檔案。當一個搜尋引擎蜘蛛來訪問站點時，它首先爬行來檢查該站點根目錄下是否存在robots.txt，
如果存在，根據檔案內容來確定訪問範圍，如果沒有，蜘蛛就沿著連結抓取。robots.txt 放在專案的根目錄下。

2. robots.txt語法

   1) 允許所有搜尋引擎訪問網站的所有部分
robots.txt寫法如下：
        User-agent: *
          Disallow:
       或者
         User-agent: *
         Allow: /

注意： 1. 第一個英文要大寫，冒號是英文狀態下，冒號後面有一個空格，這幾點一定不能寫錯。

   2) 禁止所有搜尋引擎訪問網站的所有部分
      robots.txt寫法如下：
           User-agent: *
            Disallow: /

   3) 只需要禁止蜘蛛訪問某個目錄，比如禁止admin、css、images等目錄被索引
       robots.txt寫法如下：
             User-agent: *
             Disallow: /css/
             Disallow: /admin/
             Disallow: /images/

注意：路徑後面有斜槓和沒有斜槓的區別：比如Disallow: /images/ 有斜槓是禁止抓取images整個資料夾，Disallow: /images 沒有斜槓意思是凡是路徑裡面有/images關鍵詞的都會被遮蔽

       4）遮蔽一個資料夾/templets，但是又能抓取其中一個檔案的寫法:/templets/main
            robots.txt寫法如下：
               User-agent:   *
                 Disallow: /templets

Allow: /main

5) 禁止訪問/html/目錄下的所有以”.php”為字尾的URL(包含子目錄)

        robots.txt寫法如下：
                User-agent: *
                    Disallow: /html/*.php

        6) 僅允許訪問某目錄下某個字尾的檔案,則使用“$”
           robots.txt寫法如下：
               User-agent: *
           Allow: .html$
                   Disallow: /

         7）禁止索引網站中所有的動態頁面
            比如這裡限制的是有“?”的域名，例如index.php?id=1
            robots.txt寫法如下：
                        User-agent: *
                        Disallow: /*?*

8) 禁止搜尋引擎抓取我們網站上的所有圖片(如果你的網站使用其他字尾的圖片名稱，在這裡也可以直接新增)
          有些時候，我們為了節省伺服器資源，需要禁止各類搜尋引擎來索引我們網站上的圖片，這裡的辦法除了使用“Disallow: /images/”這樣的直接遮蔽資料夾的方式之外，還可以採取直接遮蔽圖片字尾名的方式。
        robots.txt寫法如下：
             User-agent: *
             Disallow: .jpg$
             Disallow: .jpeg$
             Disallow: .gif$
             Disallow: .png$
             Disallow: .bmp$

寫robots.txt要注意的地方
1. 第一個英文要大寫，冒號是英文狀態下，冒號後面有一個空格，這幾點一定不能寫錯。
　　2. 斜槓：/ 代表整個網站
　　3.如果“/”後面多了一個空格，則遮蔽整個網站
　　4.不要禁止正常的內容
　　5.生效時間是幾天到兩個月

下面這種情況有灰色的一行字說明robots.txt是起了作用的。只是收錄了網站的位址列：

robots.txt 禁止收錄協議的寫法

robots.txt 禁止收錄協議的寫法

通過Robots.txt禁止搜尋引擎收錄的方法

robots.txt的語法和寫法詳解

dedecms:解析Robots.txt 協議標準

robots.txt 文件是什麽？如何獲取

robots.txt的介紹和寫作

CentOS7.*禁止IPv6協議

Scrapy爬蟲遇到 ‘Forbidden by robots.txt’的問題

Kali Linux Web滲透測試手冊(第二版) - 2.8 - 利用robots.txt

“robots.txt”簡介

網站根目錄robots.txt設定

爬取有驗證碼的網站，（爬之前最好看一下君子協定）robots.txt,以人人網為例，每爬100條資料需要驗證一次（需要自己購買一個驗證碼破解會員，不是很貴，我這裡選擇的是超級鷹），簡版

抓取網站小竅門 | robots.txt

如何做到優化引擎搜尋SEO之第七篇：robots.txt

使用python指令碼過濾出伺服器日誌檔案中所有訪問過robots.txt檔案的主機

爬取網站前1_解析網站robots.txt檔案

劍走偏鋒，robots.txt快速抓取網站的小竅門

爬蟲協議robots

Python 爬蟲-Robots協議

robots協議

robots.txt 禁止收錄協議的寫法

相關推薦