又一家資料公司被查，爬蟲到底做錯了什麼？

阿新 • • 發佈：2019-09-13

9 月 6 日下午，多位業內人士稱，杭州知名大資料服務公司杭州魔蠍資料科技有限公司，疑似被相關執法人員控制，其中一位周姓核心高管人員被警方帶走。

以上是前幾天技術圈傳播的一則新聞，又一家資料公司被調查，很多資料從業者、爬蟲開發者發出了“感嘆” —— 「爬蟲用得好，XX進得早；資料玩得溜，XX吃個夠」。

魔蠍科技作為一家資料服務公司，曾在 2017 年一篇『爬蟲凶猛：爬支付寶、爬微信、竊取現金貸放貸資料』的文章中，被指出存在開發使用惡意爬蟲的行為。

當然關於魔蠍科技為什麼被查，這個等待執法部門的調查結果即可，咱們不在這裡無端猜測。

我今天要說的是關於爬蟲的合法性，我希望通過一些案例來探討：怎樣做一個不觸碰紅線的爬蟲開發者。

爬蟲作為一種計算機技術，具有技術中立性，爬蟲技術在法律上從來沒有被禁止。爬蟲的發展歷史可以追溯到 20 年前，搜尋引擎、聚合導航、資料分析、人工智慧等業務，都需要基於爬蟲技術。

但是爬蟲作為獲取資料的技術手段之一，由於部分資料存在敏感性，如果不能甄別哪些資料是可以爬取，哪些會觸及紅線，可能下一位上新聞的主角就是你。

如何界定爬蟲的合法性，目前沒有明文規定，但我通過翻閱大量文章、事件、分享、司法案例，我總結出界定的三個關鍵點：採集途徑、採集行為、使用目的。

資料的採集途徑

通過什麼途徑爬取資料，這個是最需要重視的一點。總體來說，未公開、未經許可、且帶有敏感資訊的資料，不管是通過什麼渠道獲得，都是一種不合法的行為。

所以在採集這類比較敏感的資料時，最好先查詢下相關法律法規，特別是使用者個人資訊、其他商業平臺的資訊等這類資訊，尋找一條合適的途徑。

個人資料

採集和分析個人資訊資料，應該是當下所有網際網路都會做的一件事，但是大部分個人資料都是非公開的，想獲得必須通過合法途徑，可參見『網路安全法』第四十一條：

網路運營者收集、使用個人資訊，應當遵循合法、正當、必要的原則，公開收集、使用規則，明示收集、使用資訊的目的、方式和範圍，並經被收集者同意...

也就是必須在提前告知收集的方式、範圍、目的，並經過使用者授權或同意後，才能採集使用，也就是我們常見的各種網站與 App 的使用者協議中關於資訊收集的部分。

相關反面案例：

8月20日，澎湃新聞從紹興市越城區公安分局獲悉，該局日前偵破一起特大流量劫持案，涉案的新三板掛牌公司北京瑞智華勝科技股份有限公司，涉嫌非法竊取使用者個人資訊30億條，涉及百度、騰訊、阿里、京東等全國96家網際網路公司產品，目前警方已從該公司及其關聯公司抓獲6名犯罪嫌疑人。
......
北京瑞智華勝公司及其關聯公司在與正規運營商合作中，會加入一些非法軟體用於清洗流量、獲取使用者的 cookie。

節選自澎湃新聞：『新三板掛牌公司涉竊取30億條個人資訊，非法牟利超千萬元』

公開資料

從合法公開渠道，並且不明顯違背個人資訊主體意願，都沒有什麼問題。但如果通過破解、侵入等“黑客”手段來獲取資料，那有相關法律等著你。

『刑法』第二百八十五條第二款：

違反國家規定，侵入前款規定以外的計算機資訊系統或者採用其他技術手段，獲取該計算機資訊系統中儲存、處理或者傳輸的資料，或者對該計算機資訊系統實施非法控制，情節嚴重的，處三年以下有期徒刑或者拘役，並處或者單處罰金；情節特別嚴重的，處三年以上七年以下有期徒刑，並處罰金。

違反 Robots 協議

雖然 Robots 協議沒有法規強制遵守，但 Robots 協議作為行業約定，在遵循之下會給你帶來合法支援。

因為 Robots 協議具有指導意義，如果註明 Disallow 就說明是平臺明顯要保護的頁面資料，想爬取之前應該仔細考慮一下。

資料的採集行為

使用技術手段應該懂得剋制，一些容易對伺服器和業務造成干擾甚至破壞的行為，應當充分衡量其承受能力，畢竟不是每家都是 BAT 級。

高併發壓力

做技術經常專注於優化，爬蟲開發也是如此，想盡各種辦法增加併發數、請求效率，但高併發帶來的近乎 DDOS 的請求，如果對對方伺服器造成壓力，影響了對方正常業務，那就應該警惕了。

如果一旦導致嚴重後果，後果參見『刑法』第二百八十六條：

違反國家規定，對計算機資訊系統功能進行刪除、修改、增加、干擾，造成計算機資訊系統不能正常執行，後果嚴重的，構成犯罪

所以請爬取的時候，即使沒有反爬限制，也不要肆無忌憚地開啟高併發，掂量一下對方伺服器的實力。

影響正常業務

除了高併發請求，還有一些影響業務的情況，常見的比如搶單，會影響正常使用者的體驗。

資料的使用目的

資料使用目的同樣是一大關鍵，就算你通過合法途徑採集的資料，如果對資料沒有正確的使用，同樣會存在不合法的行為。

超出約定的使用

一種情況是公開收集的資料，但沒有遵循之前告知的使用目的，比如使用者協議上說只是分析使用者行為，幫助提高產品體驗，結果變成了出售使用者畫像資料。

還有一種情況，是有智慧財產權、著作權的作品，可能會允許你下載或引用，但明顯標註了使用範圍，比如不能轉載、不能用於商業行為等，更不能去盜用，這些都是有法律明文保護，所以要注意使用。

其他情況就不列舉了。

出售個人資訊

關於出售個人資訊，千萬不要做，是法律特別指出禁止的，參見：

根據《最高人民法院最高人民檢察院關於辦理侵犯公民個人資訊刑事案件適用法律若干問題的解釋》第五條規定，對“情節嚴重”的解釋：
（1）非法獲取、出售或者提供行蹤軌跡資訊、通訊內容、徵信資訊、財產資訊五十條以上的；
（2）非法獲取、出售或者提供住宿資訊、通訊記錄、健康生理資訊、交易資訊等其他可能影響人身、財產安全的公民個人資訊五百條以上的；
（3）非法獲取、出售或者提供第三項、第四項規定以外的公民個人資訊五千條以上的便構成“侵犯公民個人資訊罪”所要求的“情節嚴重”。
此外，未經被收集者同意，即使是將合法收集的公民個人資訊向他人提供的，也屬於刑法第二百五十三條之一規定的“提供公民個人資訊”，可能構成犯罪。

不正當商業行為

如果將競品公司的資料，作為自己公司的商業目的，這就可能存在構成不正當商業競爭，或者是違反智慧財產權保護。

這種情況在目前涉及爬蟲的商業訴訟案中比較常見，兩年前比較知名的案件，“車來了” App 抓取其競品 “酷米客” 的公交車資料，並展示在自己的產品上：

雖然公交車作為公共交通工具，其實時執行路線、執行時間等資訊僅系客觀事實，但當此類資訊經過人工收集、分析、編輯、整合並配合GPS精確定位，作為公交資訊查詢軟體的後臺資料後，此類資訊便具有了實用性並能夠為權利人帶來現實或潛在、當下或將來的經濟利益，已經具備無形財產的屬性。元光公司利用網路爬蟲技術大量獲取並且無償使用穀米公司“酷米客”軟體的實時公交資訊資料的行為，實為一種“不勞而獲”、“食人而肥”的行為，構成不正當競爭。

節選自『深圳市中級人民法院（2017）粵03民初822號民事判決書』

「爬蟲法」即將出臺

好訊息是，相關辦法已經在路上了。

5 月 28 日零點，國家網際網路資訊辦公室釋出了《資料安全管理辦法》徵求意見稿。

我也查閱了這份意見稿，裡面對資料的獲取、儲存、傳輸、使用等都做了一些規定，包括關於爬蟲行為的若干規定（還在徵求階段，因此後續可能會有變化）。

比如，第二章第十六條：

網路運營者採取自動化手段訪問收集網站資料，不得妨礙網站正常執行；此類行為嚴重影響網站執行，如自動化訪問收集流量超過網站日均流量三分之一，網站要求停止自動化訪問收集時，應當停止。

第三章第二十七條：

網路運營者向他人提供個人資訊前，應當評估可能帶來的安全風險，並徵得個人資訊主體同意。下列情況除外：
（一）從合法公開渠道收集且不明顯違背個人資訊主體意願；
（二）個人資訊主體主動公開；
（三）經過匿名化處理；
（四）執法機關依法履行職責所必需；
（五）維護國家安全、社會公共利益、個人資訊主體生命安全所必需。

節選自『資料安全管理辦法（徵求意見稿）』

結語

關於爬蟲合法性的研究就到這，有很多案例和角度由於篇幅沒有提到，也有一些觀點結論可能存在錯誤。

但希望能給各位爬蟲開發者，也包括其他開發者一些啟示：技術雖中立，使用有善惡，一定要合理合規、嚴格謹慎地使用技術。

本文屬於原創內容，首發於微信公眾號「面向人生程式設計」，如需轉載請在公眾號後臺留言。

關注後回覆以下資訊獲取更多資源
回覆【資料】獲取 Python / Java 等學習資源
回覆【外掛】獲取爬蟲常用的 Chrome 外掛
回覆【知乎】獲取最新知乎模擬登

又一家資料公司被查，爬蟲到底做錯了什麼？

9 月 6 日下午，多位業內人士稱，杭州知名大資料服務公司杭州魔蠍資料科技有限公司，疑似被相關執法人員控制，其中一位周姓核心高管人員被警方帶走。以上是前幾天技術圈傳播的一則新聞，又一家資料公司被調查，很多資料從業者、爬蟲開發者發出了“感嘆” —— 「爬蟲用得好，XX進得早；資料玩得溜，XX吃個夠」。魔

從小公司進入大廠，我都做對了哪些事？

故事得從19年的那個秋天說起，同事小麗給俺發了條訊息：“俺物件進城了。”“納尼？！你物件從鄉下來了？”“不是，俺物件去大公司了。”“哦哦，這麼個意思啊，你物件真棒！考官都問什麼了，我看看......” 於是俺也蠢蠢欲動，開啟了大廠面試的征程，下面是俺的經驗，可以給諸位借鑑借鑑。日常準備鍛鍊身體騷年

定投6年以虧損收場，他到底做錯了什麼

定投6年，以虧損收場，她到底做錯了什麼？今天聽了一個慘烈的故事。球仔一同學，從2010年開始定投某隻基金，每個月8號投300塊錢，堅持了整整六年，昨天終於全部贖回，以淨虧損200多收場。她自己覺得還挺高興的，覺得每個月省300塊錢，堅持下來竟然在基金賬戶裡面攢了幾萬。球仔卻不以為然。這

從又一家外賣被Uber收購，看美團打車未來

運動員隨著在一起英國態勢消費了解優步一起別以為Uber在中國失利，連優步中國都被滴滴收購了，就認為Uber已經不行了。其實從全球範圍內來看，Uber還是相當強勢的——創始人的那些破事兒不算在內。此外，更重要的是Uber已經不單單是在打車業務上深度耕耘，更是

800人代運營公司被查封，你家的代運營公司靠得住嗎？

自身線下決定備案合同很多也有但是想賺錢對於“代運營”賣家們應該是有愛有恨的，幫你渡劫的就是好代運營，燒了你的路虎，騙了你錢的就是混蛋！　　昨天賣家們應該都已經知道了這個消息：華南第一“大”代運營公司，被警方帶走！是不是心裏忽然不是滋味，可能現在還有很多賣

程式設計師去新公司辦入職被拒，因離職證明寫了這句話

（點選上方公眾號，可快速關注）轉自：成都商報交了簡歷，通過了面試，25歲的程式設計師戴翔被新應聘的公司通知入職，然而因為原公司給他出具的一份離職證明上，記載了一句“該員工在專案未完成情況下因個人原因離職”，讓他最終被新公司拒絕。“公司同意離職，我也按照要求填寫了離職單並且遞交了程式碼文件，為什

請問：在delphi中怎樣判斷DBgrid中資料是否被修改，以便在退出視窗時加以提示

若DBGrid.DataSource.DateSet為ADOQuery1，這樣試一下：if ADOQuery1.Modified then ... procedure TForm1.FormCloseQuery(Sender:&nbs

又一程式設計師被騙，支付寶餘額為0，卻被騙28萬！

前兩天杭州一程式設計師小宋接到了一個電話支付寶裡一分錢都沒有的他卻被騙走了28萬多問題是通過支付寶轉賬騙的！看完他被騙的過程簡直把神經碼給驚呆了…… 接到電話說他的醫保卡涉嫌非法詐騙小宋是杭州一家公司的程式設計師，11日下午三點多，下面畫面中的號碼給小宋打了電

51信用卡被查，程式設計師在外面要學會保護自己

最近的IT公司違法案件越來越多，看一下寫程式碼背後的法律風險。一、51信用卡催收和違規使用使用者資訊 10月21日上午，上市公司“51信用卡”位於警方突擊清查。據業內人士表示，有一百多名警察衝進51信用卡位於杭州西溪的辦公大樓。該人士稱道：“20幾輛警車，十輛大巴

被罵“沒前途”，那個996的程式設計師做錯了什麼？

有時候奮鬥著奮鬥著，總會忘記自己為了什麼而奮鬥，有什麼意義呢？筆者最近看吳軍的新書，得知有一個37%幸福規則，是科學家經過大量資料分析總結而來的，大意如下：如果你要買房，你需要先看房子，你決定用一個月的時間來買下一個房子，你就要先把這一個月的時間分成兩個階段。 &n

涉案10多億又一家借“區塊鏈”行騙的資金盤跑路了

“我貪他的利息，他要我的本金”。 10月10日晚，位於北京的匯眾區塊鏈商業專案疑似團隊跑路，涉案金額大概有十幾億元，受害者遍佈全國各地。該專案甚至因為宣傳有小米系產品，從而引發了小米的澄清，稱與匯眾區塊鏈沒有任何關係，不存在授權一說，進一步揭開了匯眾是一個利用噱頭圈錢的

為啥我做的RFM模型被人說做錯了，我錯哪了？

本文轉自知乎作者：接地氣的陳老師 ————————————————————————————————————————————————————— 有同學問：“為啥我做的RFM模型被客戶/業務部門批鬥，說做的是啥XX玩意？我是對著網上的教程做的呀” 答：冒著被眾多賣網課的號噴死的風險，揭示

Python爬蟲有什麼用，網友紛紛給出自己的答案，爬蟲能做的還是很多的

爬蟲可以從網站某一個頁面(通常是首頁)開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後通過這些連結地址尋找下一個網頁，這樣一直迴圈下去，直到把這個網站所有的網頁都抓取完為止。難道爬蟲真的只是這樣麼？小編特地詢問很多網友Python有什麼用，大家給出答案也是五花八門。 @冰藍

《王堅：雲端計算和大資料，你們都理解錯了》--潘越飛讀後感

原文地址：http://www.huxiu.com/article/14477/1.html 沒有樣式的文字為文章原文。加重綠色字型為本人吐槽讀後感。 ————————————讀後感———————————— 王堅，阿里巴巴最富爭議性的人物之一，愛者極愛，恨者極恨。

如何終止ajax請求？資料處理太慢，我不想載入了，要求中斷重新開始？使用jQuery或者原生JavaScript進行處理？

一：請求次數多的情況下我們可愛能會遇到；二：非同步執行沒有返回具體引數，或者說後臺顯示返回success，前臺顯示空白；三：網路載入失敗；以上情況我們需要配合使用者體驗，我們可以在終止迴圈提示使用者網路狀態載入異常，重新載入； 1、採用jQuery的ajax方式

[面經]百度商務搜尋部實習生面經（已經被拒，倒在三面上了）

今天發簡訊問了下，已悲劇。。。最近一個月來微軟，騰訊，百度接連倒在技術面的最後一面上，基本上dream公司都過去了，不想說什麼了，有點失落。。。直接奉上面經吧，希望都後來人有幫助，百度商務搜尋部真的是個很不錯的地方，這次沒有緣分，希望以後能進。一個月前投的百度商務搜尋部實習職位，一直都沒有

樹形DP——動態規劃與資料結構的結合，在樹上做DP

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是演算法與資料結構的第15篇，也是動態規劃系列的第4篇。之前的幾篇文章當中一直在聊揹包問題，不知道大家有沒有覺得有些膩味了。雖然經典的文章當中揹包一共有九講，但除了競賽選手，我們能理解到單調優化就已經非常出色了。像是帶有依賴的揹包問題，和混合

註冊、起名、選頭像，也許起步就錯了——自媒體有坑，得繞①

網絡營銷世上本來就有坑，掉進去的人多了，也就發現了坑。前方有坑，大家繞行。這裏是第1期《自媒體有坑，得繞》，咱們先來個起手式，從註冊用戶開始講起。或許你會說了，註冊自媒體，這種事還要教嗎？沒註冊過，也有微信、郵箱，那樣不是3分鐘搞定。實在是註冊的不太滿意了，咱隨後就改還不得了。咱們先舉個例子。比如我要去註冊一

oracle基本操作，自己親手做過了

第一部分： --建立表空間(其中TWC.DBF不需要我們手工建立) -----建立了一個大小為20M的表空間，自動增長以5M的大小，可以無限制增加下去， ------只要你的磁碟夠大 create tablespace tian datafile 'D:\

[轉載]敏捷開發，你真的做對了嗎？

緣起 2017年3月，應移動事業群智慧營銷平臺專案管理部負責人邀請，我開始支援智慧營銷平臺CRM團隊。智慧營銷平臺是阿里文娛廣告團隊，是阿里巴巴淘外變現的主力軍。CRM團隊負責開發和維護CRM系統。CRM系統服務於銷售和代理商，串起商機管理、客戶開發、合同管理、風控稽核、賬戶管理、財務結算等業務鏈條。CRM

又一家資料公司被查，爬蟲到底做錯了什麼？

資料的採集途徑

個人資料

公開資料

違反 Robots 協議

資料的採集行為

高併發壓力

影響正常業務

資料的使用目的

超出約定的使用

出售個人資訊

不正當商業行為

「爬蟲法」即將出臺

結語

相關推薦