爬蟲要違法了嗎？小編告訴大家：守住規則，大膽去爬

阿新 • • 發佈：2018-12-30

最近我學習和實踐網路爬蟲，總想著在這兒抓點資料在那兒抓點資料。

但不知為什麼，抓取別人網站資料時，總會產生莫名恐慌生怕自己一不小心就侵權了，然後被關在監獄摩擦

所以我想現在這個時候，非常有必要仔細研究一下有關網路爬蟲的規則和底線。

我們生活中幾乎每天都在爬蟲應用，如百度，你在百度中搜索到的內容幾乎都是爬蟲採集下來的(百度自營的產品除外，如百度知道、百科等)，所以網路爬蟲作為一門技術，技術本身是不違法的。

哪些情況下網路爬蟲採集資料後具備法律風險？

當採集的站點有宣告禁止爬蟲採集或者轉載商業化時；

比如淘寶網，大家來看淘寶的宣告。

當網站聲明瞭rebots協議時

Robots協議（也稱為爬蟲協議、機器人協議等）的全稱是“網路爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴爬蟲哪些頁面可以抓取，哪些頁面不能抓取。

robots.txt檔案是一個文字檔案，使用任何一個常見的文字編輯器，比如Windows系統自帶的Notepad，就可以建立和編輯它。robots.txt是一個協議，而不是一個命令。robots.txt是搜尋引擎中訪問網站的時候要檢視的第一個檔案。robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。

如何檢視採集的內容是的有rebots協議？

其實方法很簡單。你想檢視的話就在IE上打http://你的網址/robots.txt要是說檢視分析robots的話有專業的相關工具站長工具就可以!

爬蟲作為一種計算機技術就決定了它的中立性，因此爬蟲本身在法律上並不被禁止，但是利用爬蟲技術獲取資料這一行為是具有違法甚至是犯罪的風險的。

舉個例子：像谷歌這樣的搜尋引擎爬蟲，每隔幾天對全網的網頁掃一遍，供大家查閱，各個被掃的網站大都很開心。這種就被定義為“善意爬蟲”。但是像搶票軟體這樣的爬蟲，對著 12306 每秒鐘恨不得擼幾萬次，鐵總並不覺得很開心，這種就被定義為“惡意爬蟲”。

爬蟲所帶來風險主要體現在以下3個方面：

違反網站意願，例如網站採取反爬措施後，強行突破其反爬措施；
爬蟲干擾了被訪問網站的正常運營；
爬蟲抓取了受到法律保護的特定型別的資料或資訊。

解釋一下爬蟲的定義：網路爬蟲（英語：web crawler），也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。

網路爬蟲抓取的資料有如下規則：

資料完全公開
不存在也無法做到越權訪問爬取

常見錯誤觀點：認為爬蟲就是用來抓取個人資訊的，與信用基礎資料相關的。

總的來說，技術本無罪，但是你利用技術爬取別人隱私、商業資料，那你就是蔑視法律了

爬蟲要違法了嗎？小編告訴大家：守住規則，大膽去爬

當採集的站點有宣告禁止爬蟲採集或者轉載商業化時；

當網站聲明瞭rebots協議時

寫在最後

爬蟲要違法了嗎？小編告訴大家：守住規則，大膽去爬

[新手教程] 教程：小編教大家怎麼壓縮圖片大小，菜鳥們快來學習啦~~~

JAVA要死了嗎？不！我來告訴你為什麼！

JAVA要死了嗎？不！我來告訴你為什麽！

小黃車無法線上退還餘額累計負債達64.96億這一次ofo真的要涼了嗎？

同事嘴裏常說的CDN到底是什麽，網絡工程師培訓小編告訴你

他們要消失了嗎？探訪人工智能浪潮下的鑒黃師

知名藥企醫藥代表大規模被裁，藥代的寒冬要來了嗎？

0462-Hadoop和大資料要完蛋了嗎？

AI合成主播上崗主播也要失業了嗎?

他們要消失了嗎？探訪人工智慧浪潮下的鑑黃師

共享單車、共享汽車相繼走下坡路，共享經濟要涼了嗎？

10月北上廣長租公寓租金下降租房的春天要來了嗎| Mob Insight

原文小編認為的：幾大常見的伺服器管理軟體

python開發編程基礎：函數定義，返回值，參數

小鯨戀愛班：聊天的時候，你能不能別總是秒回？

爬蟲到底違法嗎？這位爬蟲工程師給出了答案

小程序上線“社交立減金”功能，又要騙電商開發小程序了？

張書樂：網遊“小花仙”存女童遭性侵漏洞，實名制被破了嗎？

裝虛擬機的教程小編我終於弄好了！

爬蟲要違法了嗎？小編告訴大家：守住規則，大膽去爬

當採集的站點有宣告禁止爬蟲採集或者轉載商業化時；

當網站聲明瞭rebots協議時

寫在最後

相關推薦