2018爬蟲行業分析報告

阿新 • • 發佈：2018-12-22

近日，騰訊雲釋出2018上半年安全專題系列研究報告，該系列報告圍繞雲上使用者最常遭遇的安全威脅展開，用資料統計揭露攻擊現狀，通過溯源還原攻擊者手法，讓企業使用者與其他使用者在應對攻擊時有跡可循，併為其提供可靠的安全指南。本篇報告中，雲鼎實驗室通過部署的威脅感知系統，捕獲到大量爬蟲請求流量以及真實來源IP，且基於2018年上半年捕獲的數億次爬蟲請求，對網際網路爬蟲行為進行分析。

基本概念

爬蟲是什麼？

爬蟲最早源於搜尋引擎，它是一種按照一定的規則，自動從網際網路上抓取資訊的程式。

搜尋引擎是善意的爬蟲，它爬取網站的所有頁面，提供給其他使用者進行快速搜尋和訪問，給網站帶來流量。為此，行業還達成了Robots君子協議，讓網際網路上的搜尋與被搜尋和諧相處。

原本雙贏的局面，很快就被一些人破壞了，如同其他技術，爬蟲也是一把雙刃劍，變得不再「君子」。尤其是近年來「大資料」的概念，吸引了許多公司肆意爬取其他公司的資料，於是「惡意爬蟲」開始充斥網際網路。

爬蟲的分類

按爬蟲功能，可以分為網頁爬蟲和介面爬蟲。

網頁爬蟲：以搜尋引擎爬蟲為主，根據網頁上的超連結進行遍歷爬取。

介面爬蟲：通過精準構造特定API介面的請求資料，而獲得大量資料資訊。

按授權情況，可以分為合法爬蟲和惡意爬蟲。

合法爬蟲：以符合Robots協議規範的行為爬取網頁，或爬取網路公開介面，或購買介面授權進行爬取，均為合法爬蟲，該類爬蟲通常不用考慮反爬蟲等對抗性工作。

惡意爬蟲：通過分析並自行構造引數對非公開介面進行資料爬取或提交，獲取對方本不願意被大量獲取的資料，並有可能給對方伺服器效能造成極大損耗。此處通常存在爬蟲和反爬蟲的激烈交鋒。

資料從哪來？

爬蟲不生產資料，它們只是資料的搬運工。要研究爬蟲，就得先研究資料的來源。尤其是對小型公司來說，往往需要更多外部資料輔助商業決策。如何在廣袤的網際網路中獲取對自己有價值的資料，是許多公司一直考慮的問題。通常來說，存在以下幾大資料來源：

企業產生的使用者資料

如 BAT 等公司，擁有大量使用者，每天使用者都會產生海量的原始資料。另外還包括 PGC（專業生產內容）和 UGC（使用者生產內容）資料，如新聞、自媒體、微博、短視訊等等。

政府、機構的公開資料

如統計局、工商行政、智慧財產權、銀行證券等公開資訊和資料。

第三方資料庫購買

市場上有很多產品化的資料庫，包括商業類和學術類，比如 Bloomberg、 CSMAR、 Wind、知網等等，一般以公司的名義購買資料查詢許可權，比如諮詢公司、高等院校、研究機構都會購買。

爬蟲獲取網路資料

使用爬蟲技術，進行網頁爬取，或通過公開和非公開的介面呼叫，獲得資料。

公司間進行資料交換

不同公司間進行資料交換，彼此進行資料補全。

商業間諜或黑客竊取資料

通過商業間諜獲取其他公司使用者資料，或者利用黑客等非常規手段，通過定製入侵獲取資料或地下黑市購買其他公司資料。此處商業間諜洩漏遠多於黑客竊取。

2018爬蟲行業分析報告

基本概念

爬蟲是什麼？

爬蟲的分類

資料從哪來？

2018爬蟲行業分析報告

《2018中國區塊鏈行業分析報告》（50頁PPT全文）

cve-2018-0802漏洞分析報告

區塊鏈技術與應用行業分析報告

遊戲邦社交遊戲-手機遊戲行業分析報告（2010年版）

【數字化】數字化轉型是什麼、為什麼、怎麼辦；2018年數字化供應鏈行業及案例分析報告

數字貨幣量化分析報告[2018-01-27]

數字貨幣量化分析報告[2018-01-31]

Python爬蟲——Python 崗位分析報告

2018年8月以太坊DApp資料分析報告

2018中國網際網路理財教育行業洞察報告

2018年9月國內手機市場執行分析報告

頭皮護理行業分析及消費者洞察報告

Python爬蟲教程：爬取崗位分析報告

深度乾貨！值得精讀的2018自動駕駛行業發展報告

2018年資料分析師市場需求現狀分析報告基於獵聘網

2018年中國AI行業研究報告（附下載）

2018中小企業終端管理行業趨勢報告

ActiveReports 大資料分析報告：2018中國電影再次迎來黃金時代

2018中國機器人產業分析報告

2018爬蟲行業分析報告

基本概念

爬蟲是什麼？

爬蟲的分類

資料從哪來？

相關推薦