python 網路爬蟲的Robots協議

阿新 • • 發佈：2018-12-09

網路爬蟲的尺寸大致分為3種：

而第一種大致佔到了90%。由於網路爬蟲的存在，伺服器會因為網路爬蟲造成很大的資源開銷，比如一個普通人一定時間內訪問上十次，而爬蟲可能會訪問十萬次或者百萬次。如果一個伺服器效能較差，可能會承受不來這個規模的訪問。因此網路上對爬蟲有一定的制約，對於一些不友好的爬蟲，甚至可能會涉及到觸犯到法律。

現在一般的網站都會對爬蟲做出限制，大致分為兩種：

現在說一下第二種，Robots（Robots Exclusion Standard ）協議，也叫機器人協議。

作用：告知爬蟲網頁上哪些內容可以爬取，哪些不行。

形式：在網站根目錄下放置robots.txt檔案。

比如我們用程式碼去獲取京東的robots協議：

import  requests

def getHTTPXML( url ):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "產生異常"

if __name__=="__main__":
    url = "http://www.jd.com/robots.txt"
    print(getHTTPXML(url))

爬取下來的robots協議為：

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

它是什麼意思呢，我們來分析一下。

第一行*表示所有的，也就是說，對於所有的網路爬蟲，它都定義為User-agent

意思就是說對於所有的網路爬蟲，都應該遵守這個協議。

第二行什麼意思呢？disallow表示不允許，？後面是*，表示？後面所有的東西，也就是說，它不允許任何爬蟲訪問任何以？開頭的路徑。

第三行表示任何爬蟲都不允許訪問pop/開頭的路徑。

第四行同理，符合這類的路徑也不允許訪問。

後面的又寫了四個爬蟲，EtaoSpider等等

他們被禁止的是根目錄。這四種爬蟲不允許爬取京東的任何資源。

也就是說這四種爬蟲被京東定義為惡意爬蟲，非法的獲取過京東的資源，所以京東不允許這四類爬蟲獲取京東的任何資源了。

對於不遵守robots協議的爬蟲，可能會存在法律風險。

所以大家也看到了，robots協議就是通過User-agent 和 disallow這兩個基本語法來告知所有爬蟲它內部能訪問的許可權。

有了這個的話，就相當於告知所有爬蟲應該去遵守這個網站的規範，相當於制定了一個準則。

不同的網站會有不同的robots協議，我們也可以看看其他網站的robots協議。

來看一下百度的robots協議：

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/


User-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: *
Disallow: /

qq的robots協議：

User-agent: *
Disallow:  
Sitemap: http://www.qq.com/sitemap_index.xml

新浪新聞的robots協議：

User-agent: *
Disallow: /wap/
Disallow: /iframe/
Disallow: /temp/

不是所有網站都有robots協議，比如國家教育部的網站就沒有robots協議，它就預設為所有網路爬蟲都可以無限制的去爬取這個網站。

python 網路爬蟲的Robots協議

網路爬蟲的尺寸大致分為3種：而第一種大致佔到了90%。由於網路爬蟲的存在，伺服器會因為網路爬蟲造成很大的資源開銷，比如一個普通人一定時間內訪問上十次，而爬蟲可能會訪問十萬次或者百萬次。如果一個伺服器效能較差，可能會承受不來這個規模的訪問。因此網路上對爬蟲有一定的制約，對於一些不友好的爬蟲

python網路爬蟲與資訊提取（四）Robots協議

Robots協議例項一京東例項二亞馬遜緒論網路爬蟲引發的問題1、網路爬蟲的尺寸爬取網頁 Requests庫爬取網站 Scrapy庫爬取全網建立搜尋引擎2、網路爬蟲引發的問題1.伺服器效能騷擾2.法律風險3.洩露隱私3、網路爬蟲的限制來源審查：判斷User-Agent

Python 爬蟲-Robots協議

spa eight gen 網絡 width 次數 image 審查 www 2017-07-25 21:08:16 一、網絡爬蟲的規模二、網絡爬蟲的限制 ? 來源審查：判斷User‐Agent進行限制　　檢查來訪HTTP協議頭的User‐Agent域，只響應瀏覽器或友

02.Python網路爬蟲第二彈《http和https協議》

一.HTTP協議　　1.官方概念：　　　　HTTP協議是Hyper Text Transfer Protocol（超文字傳輸協議）的縮寫,是用於從全球資訊網（WWW:World Wide Web ）伺服器傳輸超文字到本地瀏覽器的傳送協議。（雖然童鞋們將這條概念都看

Python網路爬蟲http和https協議

一.HTTP協議　　1.官方概念：　　　　HTTP協議是Hyper Text Transfer Protocol（超文字傳輸協議）的縮寫,是用於從全球資訊網（WWW:World Wide Web ）伺服器傳輸超文字到本地瀏覽器的傳送協議。（雖然童鞋們將這條概念都看爛了，但是也沒辦法，畢竟這就是HTTP

python網路爬蟲（一）

網路爬蟲之前奏網路爬蟲之規則 Requests庫入門 requests庫的安裝 requests的詳細資訊 Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。 requests庫安裝成功與否的測試

python網路爬蟲五

實戰三—向搜尋引擎提交搜尋請求關鍵點：利用搜索引擎提供的介面百度的介面：wd=“要搜尋的內容” 360的介面：q=“要搜尋的內容” 所以我們只要把我們提交給伺服器的url修改成對應的格式，就可以向搜尋引擎提交關鍵字。修改url，第一個想到的就是params引數。只

Python網路爬蟲快速入門到精通

阿里雲大學線上工作坊上線，原理精講+實操演練，讓你真正掌握雲端計算、大資料技能。 Python專家為你詳細講解爬蟲技術的原理與實戰，3大框架詳解+6場實戰演練+反爬技術+分散式爬蟲，講師線上答疑，全面掌握Python爬蟲。爬蟲有什麼用呢？你要找工作，想知道哪個崗位當前最熱門，爬取分析

python網路爬蟲四

實戰一，爬取京東商品 import requests url = "https://item.jd.com/27217068296.html" try: r = requests.get(url) r.raise_for_status() #獲取爬取失敗異常 r.enc

python網路爬蟲二

瞭解HTTP協議請求與響應模式的協議：使用者提出對URL（用來定位網路中的資源位置）地址資料的操作請求，伺服器給予相應。無狀態的應用層協議：兩次請求之間不會互相影響。 HTTP協議支援的請求種類：如果URL處的資源很龐大，我們就可以用head方法讀取部分資訊。

我的 Python 網路爬蟲直播分享要來了！

開篇之前先提一下上週日的事情。上週日的時候我參加了北京站的 PyCon China 2018 開發者大會，PyCon 大家知道的吧！就是 Python 界最大的技術開發者大會，會上會有很多 Python 開發者分享自己的相關開發經驗，開發者主要來自歐美國家，而 PyCon China 就是中國區的 PyC

python網路爬蟲一

大概框架 Request庫的安裝爬取網頁最好用的第三方庫直接安裝即可（用於OS X） pip3 install requests request庫的常用方法： request庫一共有七個常用方法。一個基本方法是request方法，其他的方法都是呼叫request方

Python網路爬蟲實戰

阿里雲大學：Python網路爬蟲實戰網路爬蟲（又被稱為網頁蜘蛛，網路機器人），是一種按照一定的規則，自動的抓取資訊的程式或者指令碼。網路爬蟲是網際網路上進行資訊採集的通用手段，在網際網路的各個專業方向上都是不可或缺的底層技術支撐。本課程從爬蟲基礎開始，全面介紹了Python網路爬蟲技術，

資料處理（玩轉python網路爬蟲）

從網頁上採集的資料後，大多數的資料是雜亂無章的，這時就需要對資料進行加工處理，去掉一些垃圾資料才能得到我們想要的資料。常用的方法有以下三種方法：字串操作，正則表示式和第三方模組庫。一、字串操作（擷取、替換、查詢和分割）（1）擷取：字串[開始位置:結束位置:間隔位置] 開始位置為

Requests庫函式的學習（玩轉python網路爬蟲）

一、請求方式 HTTP常用的請求方式是GET和POST，Requests對此區分兩種不同的請求方式。（1）GET請求 Requests的GET請求分為兩種：不帶引數和帶引數。判斷URL是否帶有引數，通過對“？”進行判斷，“？”表示帶有引數。 import requests # 第一

python網路爬蟲磁碟快取資料

import os import re import urllib.parse import pickle class DiskCache: def __init__(self,cache_dir='cache'): self.cache_dir=cache_dir

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

python網路爬蟲（web spider）系統化整理總結（一）：入門

接觸爬蟲很久了，一直沒有個系統的理解和整理，近來假日無事，總結一下。 -------------------------------------------以下是目錄--------------------------------------------------------- 一、爬蟲概

Python網路爬蟲之requests庫Scrapy爬蟲比較

requests庫Scrapy爬蟲比較相同點：都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線兩者可用性都好，文件豐富，入門簡單。兩者都沒有處理JS，提交表單，應對驗證碼等功能（可擴充套件）想爬取有驗證碼的，換需要學習別的庫知識。不同點： Scrapy,非同

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

python 網路爬蟲的Robots協議

相關推薦