dedecms:解析Robots.txt 協議標準

阿新 • • 發佈：2018-12-22

Robots.txt 是存放在站點根目錄下的一個純文字檔案。雖然它的設定很簡單，但是作用卻很強大。它可以指定搜尋引擎蜘蛛只抓取指定的內容，或者是禁止搜尋引擎蜘蛛抓取網站的部分或全部內容。

下面我們就來詳細介紹一下它的使用方法：

Robots.txt 檔案應該放在網站根目錄下，並且該檔案是可以通過網際網路進行訪問的。

例如：

如果您的網站地址是 http://www.dedecms.com

那麼，該檔案必須能夠通過 http://www.dedecms.com/robots.txt 開啟並看到裡面的內容。

格式：

User-agent:

用於描述搜尋引擎蜘蛛的名字，在" Robots.txt "檔案中，如果有多條User-agent記錄說明有多個搜尋引擎蜘蛛會受到該協議的限制，對該檔案來說，至少要有一條User-agent記錄。如果該項的值設為*，則該協議對任何搜尋引擎蜘蛛均有效，在" Robots.txt "檔案中，"User-agent:*"這樣的記錄只能有一條。

Disallow:

用於描述不希望被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，任何以Disallow開頭的URL均不會被Robot訪問到。

舉例：

例一："Disallow:/help"

是指/help.html 和/help/index.html都不允許搜尋引擎蜘蛛抓取。

例二："Disallow:/help/"

是指允許搜尋引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。

例三：Disallow記錄為空

說明該網站的所有頁面都允許被搜尋引擎抓取，在"/robots.txt"檔案中，至少要有一條Disallow記錄。如果"/robots.txt"是一個空檔案，則對於所有的搜尋引擎蜘蛛，該網站都是開放的可以被抓取的。

Robots.txt 協議中的註釋符。

舉例：

例一：通過"/robots.txt"禁止所有搜尋引擎蜘蛛抓取"/bin/cgi/"目錄，以及 "/tmp/"目錄和 /foo.html 檔案，設定方法如下：

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

例二：通過"/robots.txt"只允許某個搜尋引擎抓取，而禁止其他的搜尋引擎抓取。

如：只允許名為"slurp"的搜尋引擎蜘蛛抓取，而拒絕其他的搜尋引擎蜘蛛抓取 "/cgi/" 目錄下的內容，設定方法如下：

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三：禁止任何搜尋引擎抓取我的網站，設定方法如下：

User-agent: *

Disallow: /

例四：只禁止某個搜尋引擎抓取我的網站

如：只禁止名為“slurp”的搜尋引擎蜘蛛抓取，設定方法如下：

User-agent: slurp

Disallow: /

通過以上對robots.txt的解析，我們可以由後臺的檔案目錄推匯出dedecms標準的寫法

User-agent: *

Disallow: /data
Disallow: /dede
Disallow: /images

Disallow: /plus
Disallow: /include
Disallow: /templets
Disallow: /uploads

Sitemap: http://www.xxxxxx.com/sitemap.xml

dedecms:解析Robots.txt 協議標準

dedecms:解析Robots.txt 協議標準

爬取網站前1_解析網站robots.txt檔案

robots.txt 禁止收錄協議的寫法

robots.txt的語法和寫法詳解

robots.txt 文件是什麽？如何獲取

robots.txt的介紹和寫作

區域網的參考模型與協議標準

解析posix與perl標準的正則表示式區別

藍芽解析(3):BLE協議棧解析

Scrapy爬蟲遇到 ‘Forbidden by robots.txt’的問題

Kali Linux Web滲透測試手冊(第二版) - 2.8 - 利用robots.txt

“robots.txt”簡介

WebDriver 的協議標準 W3C

網站根目錄robots.txt設定

爬取有驗證碼的網站，（爬之前最好看一下君子協定）robots.txt,以人人網為例，每爬100條資料需要驗證一次（需要自己購買一個驗證碼破解會員，不是很貴，我這裡選擇的是超級鷹），簡版

七層協議標準，每層的功能

技術普及篇|解析網線的環保標準及阻燃等級

通過Robots.txt禁止搜尋引擎收錄的方法

解析單匯流排協議（1-wire）

抓取網站小竅門 | robots.txt

dedecms:解析Robots.txt 協議標準

相關推薦