爬蟲分析Robots協議

阿新 • • 發佈：2019-01-12

一 Robots協議

1 點睛

Robots協議也稱作爬蟲協議、機器人協議，它的全名叫作網路爬蟲排除標準（Robots Exclusion Protocol），用來告訴爬蟲和搜尋引擎哪些頁面可以抓取，哪些不可以抓取。

它通常是一個叫作robots.txt的文字檔案，一般放在網站的根目錄下。

當搜尋爬蟲訪問一個站點時，它首先會檢查這個站點根目錄下是否存在robots.txt檔案，如果存在，搜尋爬蟲會根據其中定義的爬取範圍來爬取。如果沒有找到這個檔案，搜尋爬蟲便會訪問所有可直接訪問的頁面。

2 舉例1

User-agent: *
Disallow: /
Allow: /public/

3 說明1

這實現了對所有搜尋爬蟲只允許爬取public目錄的功能，將上述內容儲存成robots.txt檔案，放在網站的根目錄下，和網站的入口檔案（比如index.php、index.html和index.jsp等）放在一起。

Disallow指定了不允許抓取的目錄，比如上例子中設定為/則代表不允許抓取所有頁面。

Allow一般和Disallow一起使用，一般不會單獨使用，用來排除某些限制。現在我們設定為/public/，則表示所有頁面不允許抓取，但可以抓取public目錄。

4 舉例2

User-agent: Baiduspider

5 說明2

這就代表我們設定的規則對百度爬蟲是有效的。如果有多條User-agent記錄，則就會有多個爬蟲會受到爬取限制，但至少需要指定一條。

6 禁止所有爬蟲訪問任何目錄

User-agent: *
Disallow: /

7 允許所有爬蟲訪問任何目錄

User-agent: *
Disallow:

8 禁止所有爬蟲訪問網站某些目錄的程式碼如下：

User-agent: *
Disallow: /private/
Disallow: /tmp/

9 只允許某一個爬蟲訪問的程式碼如下：

User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

二常見爬蟲名稱

爬蟲名稱	名稱	網站
BaiduSpider	百度	www.baidu.com
Googlebot	谷歌	www.google.com
360Spider	360搜尋	www.so.com
YodaoBot	有道	www.youdao.com
ia_archiver	Alexa	www.alexa.cn
Scooter	altavista	www.altavista.com

三 robotparser

1 點睛

瞭解Robots協議之後，我們就可以使用robotparser模組來解析robots.txt了。該模組提供了一個類RobotFileParser，它可以根據某網站的robots.txt檔案來判斷一個爬取爬蟲是否有許可權來爬取這個網頁。

該類用起來非常簡單，只需要在構造方法裡傳入robots.txt的連結即可。

首先看一下它的宣告：

urllib.robotparser.RobotFileParser(url='')

當然，也可以在宣告時不傳入，預設為空，最後再使用set_url()方法設定一下也可。

2 RobotFileParser類的常見方法

set_url()：用來設定robots.txt檔案的連結。如果在建立RobotFileParser物件時傳入了連結，那麼就不需要再使用這個方法設定了。
read()：讀取robots.txt檔案並進行分析。注意，這個方法執行一個讀取和分析操作，如果不呼叫這個方法，接下來的判斷都會為False，所以一定記得呼叫這個方法。這個方法不會返回任何內容，但是執行了讀取操作。
parse()：用來解析robots.txt檔案，傳入的引數是robots.txt某些行的內容，它會按照robots.txt的語法規則來分析這些內容。
can_fetch()：該方法傳入兩個引數，第一個是User-agent，第二個是要抓取的URL。返回的內容是該搜尋引擎是否可以抓取這個URL，返回結果是True或False。
mtime()：返回的是上次抓取和分析robots.txt的時間，這對於長時間分析和抓取的搜尋爬蟲是很有必要的，你可能需要定期檢查來抓取最新的robots.txt。
modified()：它同樣對長時間分析和抓取的搜尋爬蟲很有幫助，將當前時間設定為上次抓取和分析robots.txt的時間。

3 程式碼

from urllib.robotparser import RobotFileParser
# 建立RobotFileParser物件
rp = RobotFileParser()
# 然後通過set_url()方法設定了robots.txt的連結。
rp.set_url('http://www.jianshu.com/robots.txt')
rp.read()
#can_fetch()方法判斷了網頁是否可以被抓取。
print(rp.can_fetch('*', 'http://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch('*', "http://www.jianshu.com/search?q=python&page=1&type=collections"))

4 執行結果

E:\WebSpider\venv\Scripts\python.exe E:/WebSpider/3_1_4.py
False
False

爬蟲分析Robots協議

一 Robots協議 1 點睛 Robots協議也稱作爬蟲協議、機器人協議，它的全名叫作網路爬蟲排除標準（Robots Exclusion Protocol），用來告訴爬蟲和搜尋引擎哪些頁面可以抓取，哪些不可以抓取。它通常是一個叫作robots.txt的文字檔案，一般放在

python 網路爬蟲的Robots協議

網路爬蟲的尺寸大致分為3種：而第一種大致佔到了90%。由於網路爬蟲的存在，伺服器會因為網路爬蟲造成很大的資源開銷，比如一個普通人一定時間內訪問上十次，而爬蟲可能會訪問十萬次或者百萬次。如果一個伺服器效能較差，可能會承受不來這個規模的訪問。因此網路上對爬蟲有一定的制約，對於一些不友好的爬蟲

urllib庫:分析Robots協議

1from urllib.robotparser import RobotFileParser 2import ssl 3from urllib.request import urlopen 4ssl._create_default_

Python 爬蟲-Robots協議

spa eight gen 網絡 width 次數 image 審查 www 2017-07-25 21:08:16 一、網絡爬蟲的規模二、網絡爬蟲的限制 ? 來源審查：判斷User‐Agent進行限制　　檢查來訪HTTP協議頭的User‐Agent域，只響應瀏覽器或友

Python爬蟲的道德規範---robots協議

robots.txt編寫爬蟲程序爬取數據之前，為了避免某些有版權的數據後期帶來的諸多法律問題，可以通過查看網站的robots.txt文件來避免爬取某些網頁。robots協議，告知爬蟲等搜索引擎那些頁面可以抓取，哪些不能。它只是一個通行的道德規範，沒有強制性規定，完全由個人意願遵守。作為一名有道德的技術人員，遵

爬蟲Robots協議

Robots協議就是每個網站對於來到的爬蟲所提出的要求。(並非強制要求遵守的協議，只是一種建議，但是如果不遵守有可能會承擔法律責任。）每個網站的Robots協議都在該網站的根目錄下，例如百度的Robots協議的位置就是’https://www.baidu

crawler4j原始碼分析（五）Robots協議

本節來看看crawler4j是如何支援robots協議的。對robots協議的支援主要目的就是遵守禮貌爬取，即：按照伺服器制定的規則來爬取，只抓取允許抓取的，不讓抓的不抓。在crawler4j中對robots的支援包括如下幾個類：RobotstxtConfi

python網路爬蟲與資訊提取（四）Robots協議

Robots協議例項一京東例項二亞馬遜緒論網路爬蟲引發的問題1、網路爬蟲的尺寸爬取網頁 Requests庫爬取網站 Scrapy庫爬取全網建立搜尋引擎2、網路爬蟲引發的問題1.伺服器效能騷擾2.法律風險3.洩露隱私3、網路爬蟲的限制來源審查：判斷User-Agent

python爬蟲學習筆記1：requests庫及robots協議

The Website is the API requests庫 requests庫的7個主要方法 requests.request 構造一個請求 requests.request(method,url,[**kwarges]) me

Python爬蟲：HTTP協議、Requests庫

.org clas python爬蟲 print 通用娛樂信息傳輸協議介紹 HTTP協議： HTTP（Hypertext Transfer Protocol）：即超文本傳輸協議。URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源。

調試libRTMP代碼來分析RTMP協議

bind 部分字節 attribute err nco last esc command RTMP是Real Time Messaging Protocol（實時消息傳輸協議）的首字母縮寫。該協議基於TCP，是一個協議族，常用在視頻直播領域。RTMP協議的默認端口

python&php數據抓取、爬蟲分析與中介，有網址案例

網絡數據抓取不定 pytho span article 抓取取數據 data- 近期在做一個網絡爬蟲程序。後臺使用python不定時去抓取數據。前臺使用php進行展示站點是：http://se.dianfenxiang.com python&a

robots協議

一個後綴第一個 reference gen require 站點連接人類 Robots協議（也稱為爬蟲協議、機器人協議等）的全稱是“網絡爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁

用爬蟲分析IMDB TOP250電影數據

tle table close 保存 ins turn com 現在標示起因恰逢諾蘭導演的新片《敦刻爾克》即將在中國上映，作為諾蘭導演的鐵粉，印象中他的很多部電影都進入了IMDB TOP250的榜單，但是具體是多少部呢？他是不是IMDB TOP250 中作品最多的導演

從wireshark抓包分析rtmp協議，並提取出H264視頻流

tmp mage idt 進制 tro shark src 技術 wid 利用wireshark抓取rtmp流數據, 分析到rtmp流後，寫入過濾條件，如 tcp.stream eq 6導出tcp流保存16進制的數據為純文本格式一定要選擇 Hex轉儲，然後點擊 “Sava

爬蟲基礎---HTTP協議理解、網頁的基礎知識、爬蟲的基本原理

以及 res form 一次發的 urn 網絡協議位置 nsf 一、HTTP協議的理解 URL和URI 在學習HTTP之前我們需要了解一下URL、URI(精確的說明某資源的位置以及如果去訪問它) URL：Universal Resource Locator 統一資源定位

基於Node.js的裁判文書網爬蟲分析

希望 flat oci abcd all navi script 做了 new t 因為筆者在線上實習時的需求，需要做一個裁判文書網的爬蟲，本以為，一個政府網站爬蟲嘛會有多難？但當筆者開始爬的時候，筆者發現自己錯了，困難重重！好在最後解決了，筆者將代碼重構放在github上

豆瓣電影爬蟲+分析

豆瓣電影爬蟲和分析引言最近做了一個豆瓣電影的爬蟲並且進行了簡單的資料分析，我會在部落格裡面記錄下來。其實之前也做過一些爬蟲，但一直沒有寫部落格的習慣，太懶了。所以決定以後寫得一些小爬蟲或者什麼demo都記錄下來。 1.程式環境本文使用Python 3，用到了re，request

11月10日python爬蟲分析網頁的模組lxml和Beautiful Soup

unicode是字符集，不是編碼方式 ajax返回的是json字串，json字元是類字典的形式，裡面是鍵值對 format自動排列 # 定義檔案儲存的位置,原始的定義要改變的地方是定義在字串中的 fileName = 'g:/spider/poetry/poetry{0}.html' f

用winpacp監聽並分析 FTP 協議並記錄 IP、使用者名稱、密碼和登陸是否成功

為了完成計算機網路的實驗，翻了一些部落格，有的沒原始碼，有的記錄不全。就很煩。所以自己寫一篇吧。首先我們通過wireshark看看FTP的登陸是怎麼完成的。（1）選一個當前在用的網路，我是WLAN （2）選擇TCP過濾器方便找到FTP的包（沒有過濾FTP的，最多隻能過濾出TCP）

爬蟲分析Robots協議

相關推薦