1. 程式人生 > >2018爬蟲行業分析報告

2018爬蟲行業分析報告

近日,騰訊雲釋出2018上半年安全專題系列研究報告,該系列報告圍繞雲上使用者最常遭遇的安全威脅展開,用資料統計揭露攻擊現狀,通過溯源還原攻擊者手法,讓企業使用者與其他使用者在應對攻擊時有跡可循,併為其提供可靠的安全指南。本篇報告中,雲鼎實驗室通過部署的威脅感知系統,捕獲到大量爬蟲請求流量以及真實來源IP,且基於2018年上半年捕獲的數億次爬蟲請求,對網際網路爬蟲行為進行分析。

基本概念

爬蟲是什麼?

爬蟲最早源於搜尋引擎,它是一種按照一定的規則,自動從網際網路上抓取資訊的程式。

搜尋引擎是善意的爬蟲,它爬取網站的所有頁面,提供給其他使用者進行快速搜尋和訪問,給網站帶來流量。為此,行業還達成了Robots君子協議,讓網際網路上的搜尋與被搜尋和諧相處。

原本雙贏的局面,很快就被一些人破壞了,如同其他技術,爬蟲也是一把雙刃劍,變得不再「君 子」。尤其是近年來「大資料」的概念,吸引了許多公司肆意爬取其他公司的資料,於是「惡意 爬蟲」開始充斥網際網路。

爬蟲的分類

按爬蟲功能,可以分為網頁爬蟲和介面爬蟲。

網頁爬蟲:以搜尋引擎爬蟲為主,根據網頁上的超連結進行遍歷爬取。

介面爬蟲:通過精準構造特定API介面的請求資料,而獲得大量資料資訊。

按授權情況,可以分為合法爬蟲和惡意爬蟲。

合法爬蟲:以符合Robots協議規範的行為爬取網頁,或爬取網路公開介面,或購買介面授權進行爬取,均為合法爬蟲,該類爬蟲通常不用考慮反爬蟲等對抗性工作。

惡意爬蟲:通過分析並自行構造引數對非公開介面進行資料爬取或提交,獲取對方本不願意被大 量獲取的資料,並有可能給對方伺服器效能造成極大損耗。此處通常存在爬蟲和反爬蟲的激烈交 鋒。

資料從哪來?

爬蟲不生產資料,它們只是資料的搬運工。要研究爬蟲,就得先研究資料的來源。尤其是對小型公司來說,往往需要更多外部資料輔助商業決策。如何在廣袤的網際網路中獲取對自己有價值的資料,是許多公司一直考慮的問題。通常來說,存在以下幾大資料來源:

企業產生的使用者資料

如 BAT 等公司,擁有大量使用者,每天使用者都會產生海量的原始資料。 另外還包括 PGC(專業生產內容)和 UGC(使用者生產內容)資料,如新聞、自媒體、微博、短視訊等等。 

政府、機構的公開資料

如統計局、工商行政、智慧財產權、銀行證券等公開資訊和資料。

第三方資料庫購買

市場上有很多產品化的資料庫,包括商業類和學術類,比如 Bloomberg、 CSMAR、 Wind、知網等等,一般以公司的名義購買資料查詢許可權,比如諮詢公司、高等院校、研究機構都會購買。

爬蟲獲取網路資料

使用爬蟲技術,進行網頁爬取,或通過公開和非公開的介面呼叫,獲得資料。

公司間進行資料交換

不同公司間進行資料交換,彼此進行資料補全。 

商業間諜或黑客竊取資料

通過商業間諜獲取其他公司使用者資料,或者利用黑客等非常規手段,通過定製入侵獲取資料或地下黑市購買其他公司資料。此處商業間諜洩漏遠多於黑客竊取。