1. 程式人生 > >robots.txt的介紹和寫作

robots.txt的介紹和寫作

屬性 抓取 小寫 spi 麻煩 了解 重要 允許 clas

  目前很多網站管理者似乎對robots.txt並沒有引起多大重視,甚至不知道這麽一個文件的作用。
本來應該保密的信息被爬蟲抓取了,公布在公網上,本應該發布到公網的信息卻遲遲不被搜索引擎收錄。所以下面這篇文章,就來介紹robots.txt的作用和寫作

robots.txt基本介紹
  robots 是一個純文本文件,是用來告訴搜索引擎:當前這個網站上哪些部分可以被訪問、哪些不可以,robots文件是存放在網站根目錄下的一個純文本文件。當搜索引擎訪問一個網站時,它首先會檢查該網站根目錄下是否存在robots文件。robots文件必須放置在一個網站的根目錄下,而且文件名必須全部小寫。
我們做的網站肯定希望被收錄,因為網站流量的一部分或者是大部分都是來自搜索,所以對網站來說是很重要的。問題是:我們有的網站內容不希望杯搜索到,那麽怎麽辦呢?在這種情況下,我們就有必要會用到robots文件,來與搜索引擎溝通。所有的搜索引擎蜘蛛自動在網站根目錄中尋找這個文件,所以你只需創建它並上傳,然後等待蜘蛛來閱讀。
  另外,robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。當需要完全屏蔽文件時,需要配合meta的robots屬性。

robots.txt寫作語法
首先,我們來看一個robots.txt範例:

# All robots will spider the domain
User-agent: *
Disallow:

以上文本表達的意思是允許所有的搜索機器人訪問當前站點下的所有文件。

具體語法分析:其中#後面文字為說明信息;User-agent:後面為搜索機器人的名稱,後面如果是*,則泛指所有的搜索機器人;Disallow:後面為不允許訪問的文件目錄。

下面,我將列舉一些robots.txt的具體用法:

1.允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個空文件 "/robots.txt" file

2.禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /

3.只允許某個搜索引擎的訪問,我用e來代替
User-agent: e
Disallow:
在Disallow:後面不加任何東西,意思是僅允許e訪問該網站。

4.禁止所有搜索引擎訪問網站的幾個部分(下例中的01、02、03目錄)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

5.禁止某個搜索引擎的訪問(下例中的BadBot)
User-agent: BadBot
Disallow: /

6.使用”$”限制訪問url
User-agent: *
Allow: .htm$
Disallow: /
意思是僅允許訪問以”.htm”為後綴的URL

7禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*

8.禁止搜索引擎F抓取網站上所有圖片
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是只允許引擎抓取網頁,禁止抓取任何圖片(嚴格來說,是禁止抓取jpg、jpeg、gif、png、bmp格式的圖片。)

9.只允許搜索引擎E抓取網頁和.gif格式圖片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片

10.Sitemap:sitemap是給搜索引擎爬蟲指路的地圖,引導搜索引擎爬蟲去抓取相應的地址
sitemap在robots文件的寫法如下:
Sitemap:http://***.com/sitemap.txt
切記S是大寫的!

註意事項
1.網站應該要有一個robot.txt文件,
2.絕大多數的搜索引擎機器人都遵守robots文件的規則,
3.文件名是小寫字母。
4.要提醒大家的是:robots.txt文件一定要寫對,如果不太會寫,還是要先了解再寫,以免給網站的收錄帶來麻煩。

robots.txt的介紹和寫作