1. 程式人生 > >Python爬蟲的法律邊界(一)爬蟲有風險,開爬要謹慎!

Python爬蟲的法律邊界(一)爬蟲有風險,開爬要謹慎!

公開 目前 device 開始 image 如何學習 -i 開發工程師 其它

來交代一下,你抓了多少數據,在哪抓的,幹什麽用了,看夠在裏面待幾年。

從去年開始我看到好幾起因為抓取數據而遭遇訴訟,有的鋃鐺入獄,有的被處罰金,從案件的模糊描述來看,我看得後背發涼,似乎每個爬蟲選手都有被KO的風險。

這幾個月也停止了幾個抓取工作,把有關的法律和新聞認真看了幾遍,寫了如下文章。

技術分享圖片

PS:這裏討論的是網絡爬蟲技術本身,爬蟲技術的手法可以用來抓群數據,還可以做其它事情,比如登錄社交賬號自動發帖,比如刷搜索排名等等。

《刑法》對網絡爬蟲的定罪依據

《刑法》第 285 條,非法獲取計算機信息系統數據罪。

獲取該計算機信息系統中存儲、處理或者傳輸的數據,或者對該計算機信息系統實施非法控制,

處三年以下有期徒刑或者拘役,並處或者單處罰金; 最高處七年有期徒刑並處罰金。

《刑法》第285條是對爬取數據的主要定罪依據,有興趣可以去查下×××刑法。

定罪的幾個案例:

從已有案例來看有以下幾種情況:
1.數據擁有者有證據能夠舉證你的數據是抓取來的。如下,今日頭條對起訴上海晟品法院宣判結果。

技術分享圖片

技術分享圖片

圖片文字來自中國判決文書網。

從文書描述來看,修改UA,修改device id,繞開網站訪問頻率控制這是寫爬蟲的基本,這些手法反而成為了獲罪的依據。

2.用戶社交數據,尤其是用戶隱私相關。

技術分享圖片

技術分享圖片

圖片文字來自新浪網

3.擾亂對方網站經營規則,且牟利。比如這個:

技術分享圖片

技術分享圖片

圖片文字來自中國永嘉公號

圖上描述做搜索引擎排名的技術,其實就是利用爬蟲技術規模化的訪問網頁。

在我們通常的認知裏,因為互聯網推崇分享精神,所以認為只要是網絡公開數據就可以抓取,但是通過上面的案例來看,

有幾個禁忌,抓取的數據最好不要直接商用,涉及社交信息/用戶信息要謹慎, 老板交代你抓取敏感任務時,讓老板先看下刑法第285條。

這不代表個人行為就沒事,只是還沒入他們的法眼。

在數據抓取這方面,美國也有一個判決案例,美國一家小公司向法院起訴Linkedin,理由是Linkedin通過技術手段阻止他抓取Linkedin上的數據,
而且法院判定這家公司勝訴,裁定Linkedin不準屏蔽這家公司的抓取行為。

目前我國法律是偏向數據擁有者的,如果數據擁有著者有證據向法院起訴的話,抓取數據的一方多半會敗訴。

另外在抓取過程中,如果破解/反編譯對方客戶端、軟件,破解加密算法,

比如你抓某APP數據,去反編譯他的客戶端,這絕對是犯法,這是破壞計算機信息系統罪。

爬蟲有風險,開爬要謹慎。

如果你依然在編程的世界裏迷茫,不知道自己的未來規劃,可以加入我們的Python學習扣qun:784758214,看看前輩們是如何學習的!交流經驗!
自己是一名高級python開發工程師,從基礎的python腳本到web開發、爬蟲、django、人工智能、數據挖掘等,零基礎到項目實戰的資料都有整理。
送給每一位python的小夥伴!分享一些學習的方法和需要註意的小細節,這裏是python學習者聚集地

點擊:python技術分享

Python爬蟲的法律邊界(一)爬蟲有風險,開爬要謹慎!