如何阻止搜尋引擎收錄指定網頁
一、關於robots檔案
1. 搜尋引擎蜘蛛訪問網站時,會先檢視網站根目錄下有沒有robots.txt檔案,該檔案用於指令搜尋引擎禁止抓取網站某些內容或 允許抓取某些內容。注意:就算允許抓取所有內容,也要建一個空的robots.txt檔案放在根目錄下。
2. 只有在需要禁止抓取某些內容時,robots.txt才有意義,如果該檔案為空,就意味著允許搜尋引擎抓取所有內容。
3. 語法解釋:
最簡單的robots檔案:禁止搜所有搜尋引擎抓取任何內容,寫法為:
User-agent:*
Disallow:/
其中,User-agent用於指定規則適用於哪個蜘蛛。萬用字元*代表所有搜尋引擎。如只適用於百度蜘蛛,則寫為:User-agent:Baiduspider。谷歌蜘蛛:Googlebot.
Disallow告訴蜘蛛不要抓取某些檔案。如 Disallow:/post/index.html,告訴蜘蛛禁止抓取Post資料夾下index.html檔案。 Disallow後什麼都不寫,代表允許抓取一切頁面。
二、關於meta robots標籤
1. 用於指令搜尋引擎禁止索引本頁內容。
2. 語法解釋:<meta name="robots" content="noindex,nofollow"> 意思是 禁止所有搜尋引擎索引本頁面,禁止跟蹤本頁面上的連結。
noindex:告訴蜘蛛不要索引本頁面。
nofollow:告訴蜘蛛不要跟蹤本頁面上的連結。
nosnippet:告訴蜘蛛怒要在搜尋結果中顯示說明文字。
noarchive:告訴搜尋引擎不要顯示快照。
noodp:告訴搜尋引擎不要使用開放目錄中的標題和說明。