爬蟲要違法了嗎?小編告訴大家:守住規則,大膽去爬
最近我學習和實踐網路爬蟲,總想著在這兒抓點資料在那兒抓點資料。
但不知為什麼,抓取別人網站資料時,總會產生莫名恐慌生怕自己一不小心就侵權了,然後被關在監獄摩擦
所以我想現在這個時候,非常有必要仔細研究一下有關網路爬蟲的規則和底線。
我們生活中幾乎每天都在爬蟲應用,如百度,你在百度中搜索到的內容幾乎都是爬蟲採集下來的(百度自營的產品除外,如百度知道、百科等),所以網路爬蟲作為一門技術,技術本身是不違法的。
哪些情況下網路爬蟲採集資料後具備法律風險?
當採集的站點有宣告禁止爬蟲採集或者轉載商業化時;
比如淘寶網,大家來看淘寶的宣告。
當網站聲明瞭rebots協議時
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴爬蟲哪些頁面可以抓取,哪些頁面不能抓取。
robots.txt檔案是一個文字檔案,使用任何一個常見的文字編輯器,比如Windows系統自帶的Notepad,就可以建立和編輯它。robots.txt是一個協議,而不是一個命令。robots.txt是搜尋引擎中訪問網站的時候要檢視的第一個檔案。robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。
如何檢視採集的內容是的有rebots協議?
其實方法很簡單。你想檢視的話就在IE上打http://你的網址/robots.txt要是說檢視分析robots的話有專業的相關工具 站長工具就可以!
爬蟲作為一種計算機技術就決定了它的中立性,因此爬蟲本身在法律上並不被禁止,但是利用爬蟲技術獲取資料這一行為是具有違法甚至是犯罪的風險的。
舉個例子:像谷歌這樣的搜尋引擎爬蟲,每隔幾天對全網的網頁掃一遍,供大家查閱,各個被掃的網站大都很開心。這種就被定義為“善意爬蟲”。但是像搶票軟體這樣的爬蟲,對著 12306 每秒鐘恨不得擼幾萬次,鐵總並不覺得很開心,這種就被定義為“惡意爬蟲”。
爬蟲所帶來風險主要體現在以下3個方面:
- 違反網站意願,例如網站採取反爬措施後,強行突破其反爬措施;
- 爬蟲干擾了被訪問網站的正常運營;
- 爬蟲抓取了受到法律保護的特定型別的資料或資訊。
解釋一下爬蟲的定義:網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。
網路爬蟲抓取的資料有如下規則:
- 資料完全公開
- 不存在也無法做到越權訪問爬取
常見錯誤觀點:認為爬蟲就是用來抓取個人資訊的,與信用基礎資料相關的。
總的來說,技術本無罪,但是你利用技術爬取別人隱私、商業資料,那你就是蔑視法律了