SEO禁用蜘蛛（爬蟲）搜索收錄網頁（全）

阿新 • • 發佈：2018-06-15

域名 serve mobile 字段 In article orien png 列表

手段一：

Robots協議：用來告知搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取；可以屏蔽一些網站中比較大的文件，如：圖片，音樂，視頻等，節省服務器帶寬；可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容；設置網站地圖連接，方便引導蜘蛛爬取頁面。
spider在訪問一個網站是，會首先檢查該網站的根域下是否有一個叫做robots.txt的純文本文件，這個文件用於指定spider在您網站上抓取範圍。
一般屏蔽有：隱私資料，表結構
robots文件是存在於網站的根目錄下，首先會檢查http://www.123.com/robots.txt這個文件。
robots格式：
User-agent: (代表所有搜索引擎)

Disallow:（不允許抓取的相對路徑）
allow:（允許抓取的相對路徑或文件）
robots.txt生成器：https://robots.51240.com/

文件用法
例:

禁止所有搜索引擎訪問網站的任何部分

User-agent: *

Disallow: /

實例分析：淘寶網的 Robots.txt文件:訪問www.taobao.com/robots.txt

User-agent: Baiduspider
 Allow: /article
 Allow: /oshtml 
Disallow: /product/ 
Disallow: / 

User-Agent: Googlebot 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: /

 User-agent: Bingbot 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: / 

User-Agent: 360Spider 
Allow: /article 
Allow: /oshtml 
Disallow: / 

User-Agent: Yisouspider 
Allow: /article 
Allow: /oshtml 
Disallow: / 

User-Agent: Sogouspider 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Disallow: / 

User-Agent: Yahoo! Slurp 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: / 

User-Agent: * 
Disallow: /

做個例子，分析第一條：

User-agent: Baiduspider
Allow: /article 
Allow: /oshtml 
Disallow: /product/ 
Disallow: /

顯然淘寶允許百度能訪問根目錄下的article，oshtml，不允許訪問product目錄根目錄下其他的目錄

手段二：

除了設置robots協議之外，還可以在網頁代碼裏面設置。

在網頁<head></head>之間加入<meta name="robots" content="noarchive">代碼。表示緊致所有搜索引擎抓取網站和顯示快照。

NOINDEX：告訴Google不要索引含此標簽的網頁。但根據實際經驗，Google並非100%遵守。
NOFOLLOW：告訴Google不要關註含此標簽的網頁裏的特定鏈接。這是為了解決鏈接spam而設計的Meta標簽。
NOARCHIVE：告訴Google不要保存含此標簽的網頁的快照。
NOSNIPPET：告訴Google不要在搜索結果頁的列表裏顯示含此標簽的網站的描述語句，並且不要在列表裏顯示快照鏈接。

　　如果要針對某一個搜索引擎禁止抓取，在網頁<head></head>之間加入<meta name="baidspider" content="noarchive">代碼，表示禁止百度抓取，<meta name="googlebot" content="noarchive">表示禁止谷歌抓取，其他的搜索引擎一樣原理。

這樣，一共有四種組合：

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞

＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞

＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞

＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞

其中

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以寫成＜META NAME="ROBOTS" CONTENT="ALL"＞；

＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以寫成＜META NAME="ROBOTS" CONTENT="NONE"＞

手段三：

拒絕網站的站內搜索功能是支持輸入HTML代碼或者UBB代碼

例如：

技術分享圖片

防護方式：

1.屏蔽搜索引擎收錄站內搜索頁，或者關閉站內搜索功能

2.不屏蔽站內搜索，那需要及時發現站內搜索數據是否異常，再設置敏感詞詞庫過濾一些黑灰產業的關鍵詞，以及站內搜索必須是純文本形式。

手段四：

通過搜索引擎提供的站長工具，刪除網頁快照

網址：http://tousu.baidu.com/webmaster/add

手段五：

配置nginx的配置文件，增加http_user_agent字段進行禁止網絡爬蟲，直接返回403

例子：

server {?

listen 80;?

server_name _ ; （域名或者默認服務器地址）?

#添加防止哪些爬蟲，下面做例子

if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")?

{?

return 403;?

}?

或者

#新增location字段，並且匹配到了蜘蛛，則返回403

location = /robots.txt { ????

if ($http_user_agent !~* "spider|bot|Python-urllib|pycurl")

{????????return 403;????}

}

測試工具：http://s.tool.chinaz.com/tools/robot.aspx

註意：如果還是能夠搜索到，是因為某搜索引擎不遵守robots協議約定，那麽通過robots來禁止搜索是不夠的。

SEO禁用蜘蛛（爬蟲）搜索收錄網頁（全）

域名 serve mobile 字段 In article orien png 列表手段一： Robots協議：用來告知搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取；可以屏蔽一些網站中比較大的文件，如：圖片，音樂，視頻等，節省服務器帶寬；可以屏蔽站點的一些死鏈接。方便搜索

SEO禁用蜘蛛（爬蟲）搜索收錄網頁（全）

網址：http://tousu.baidu.com/webmaster/add

SEO禁用蜘蛛（爬蟲）搜索收錄網頁（全）

Python分布式爬蟲打造搜索引擎網站（價值388元）

2810 完美立方（枚舉——搜索空間解不唯一）

C# 實現客戶端程式自動更新（百度搜索C#雲更新程式）

SEO搜索引擎優化（一）

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

Scrapy分布式爬蟲打造搜索引擎（一）,開發環境安裝

常用的windows 應用軟件命令（從網上搜索而來）

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

修道士與野人問題（BFS廣度搜索）

LeetCode 501. Find Mode in Binary Search Tree （找到二叉搜索樹的眾數）

poj1179 區間dp（記憶化搜索寫法）有巨坑！

Find a way （廣度優先搜索）

搜索請求實體（Request Body Search）

HDU 6044--Limited Permutation（搜索+組合數+逆元）

獲取百度地圖POI數據三（模擬關鍵詞搜索）

算法導論22.3深度優先搜索練習總結（轉載）

【BZOJ3769】spoj 8549 BST again DP（記憶化搜索?）

FZU 1919 -- K-way Merging sort（記憶化搜索）

Too Rich（貪心加搜索）

SEO禁用蜘蛛（爬蟲）搜索收錄網頁（全）

網址：http://tousu.baidu.com/webmaster/add

相關推薦