1. 程式人生 > >如何阻止搜尋引擎收錄指定網頁

如何阻止搜尋引擎收錄指定網頁

一、關於robots檔案

    1. 搜尋引擎蜘蛛訪問網站時,會先檢視網站根目錄下有沒有robots.txt檔案,該檔案用於指令搜尋引擎禁止抓取網站某些內容或 允許抓取某些內容。注意:就算允許抓取所有內容,也要建一個空的robots.txt檔案放在根目錄下。

    2. 只有在需要禁止抓取某些內容時,robots.txt才有意義,如果該檔案為空,就意味著允許搜尋引擎抓取所有內容。

    3. 語法解釋:

         最簡單的robots檔案:禁止搜所有搜尋引擎抓取任何內容,寫法為:

         User-agent:*             

         Disallow:/

        其中,User-agent用於指定規則適用於哪個蜘蛛。萬用字元*代表所有搜尋引擎。如只適用於百度蜘蛛,則寫為:User-agent:Baiduspider。谷歌蜘蛛:Googlebot.

                   Disallow告訴蜘蛛不要抓取某些檔案。如 Disallow:/post/index.html,告訴蜘蛛禁止抓取Post資料夾下index.html檔案。 Disallow後什麼都不寫,代表允許抓取一切頁面。

二、關於meta robots標籤

     1. 用於指令搜尋引擎禁止索引本頁內容。

     2. 語法解釋:<meta name="robots" content="noindex,nofollow"> 意思是 禁止所有搜尋引擎索引本頁面,禁止跟蹤本頁面上的連結。

        noindex:告訴蜘蛛不要索引本頁面。

        nofollow:告訴蜘蛛不要跟蹤本頁面上的連結。

        nosnippet:告訴蜘蛛怒要在搜尋結果中顯示說明文字。

        noarchive:告訴搜尋引擎不要顯示快照。

        noodp:告訴搜尋引擎不要使用開放目錄中的標題和說明。