1. 程式人生 > >玩爬蟲就是一場無形的世界大戰!爬蟲是武器!手機是不知情的士兵

玩爬蟲就是一場無形的世界大戰!爬蟲是武器!手機是不知情的士兵

編者按:在網際網路的世界中,尤其是零售領域,一直都在經歷著一場無形的資料戰爭,它們的武器是爬蟲技術,我們每一個參與者,可能就是一名不知情的士兵。日前,《連線》雜誌發表了一篇文章,詳細介紹了這一現象。

玩爬蟲就是一場無形的世界大戰!爬蟲是武器!手機是不知情的士兵

 

進群:548377875   即可獲取數十套PDF以及大量的學習教程哦!從零基礎到專案實戰的!

許多公司正在網上發動一場無形的資料戰爭。你的手機可能是一名不知情的士兵。

在零售領域,從亞馬遜、沃爾瑪到小型創業公司的都想知道競爭對手收取的費用是多少。基於實體店的零售商可以派人——有時被稱為“神祕購物者”,假裝去競爭對手的商店購物,然後記下價格。

在線上,雖然沒必要把人送到其他地方,但是一個大型零售商可以銷售數百萬種產品。所以,讓人瀏覽每一種商品並手動調整價格是不可行的。相反,這些公司使用軟體掃描競爭對手的網站並收集價格,這一過程被稱為“爬蟲”(scraping)。基於此,公司可以調整自己商品的價格。

零售價格優化公司Competera的執行長亞歷山大·高爾金(Alexandr Galkin)說,亞馬遜和沃爾瑪等公司有專門的內部團隊負責收集資料。其他公司則會轉向像它們這樣的公司獲取服務。Competera從網上搜集從鞋類零售商 Nine West 到工業裝備商 Deelat等公司的價格資料,並使用機器學習演算法幫助其客戶決定不同產品的價格。

亞馬遜沒有回答這些行為是否會影響其他網站的問題。但是根據布拉德·斯通的著作《萬貨商店》(The Everything Store),亞馬遜在2010年收購的Diapers.com的創始人指責亞馬遜使用這種機器人來自動調整價格。

爬蟲聽起來可能很邪惡,但這是網路運作的一部分。谷歌和必應(Bing)抓取網頁為它們的搜尋引擎編制索引。學者和記者使用爬蟲軟體收集資料。Competera 包括巨集碁歐洲和松下在內的一些的客戶,也會使用該公司的“品牌情報”服務來檢視零售商對其產品收取的費用,以確保它們遵守定價協議。

對於零售商來說,爬蟲可能是雙向的,這是事情變得有趣的地方。零售商不僅想看看它們的競爭對手在做什麼,也想阻止競爭對手窺探它們;零售商也希望保護智慧財產權,如產品照片和描述,這些照片和描述可以被其他公司爬去並重新使用。 Akamai Technologies 網路安全副總裁喬希·沙烏爾(Josh Shaul)說,許多公司都會部署防禦措施來反爬蟲。一種技術是:向真實的人顯示不同的價格,而不是向機器人顯示不同的價格。有些網站可能會對收集資料的機器人將價格顯示為天文數字或零。

這種防禦為新的犯罪創造了機會。一家名為Luminati的公司幫助客戶,包括Competera,通常都會偽裝機器人以避免被發現。其中有一項服務,可以使機器人看起來像是來自智慧手機的訪問。

Luminati的服務像是一個僵屍網路,一個執行惡意軟體的計算機網路,黑客用它來發動攻擊。 然而,Luminati 並沒有祕密地接管裝置,而是誘使裝置所有者接受它的軟體和另一個應用程式。 比如,從 Beka 下載 MP3 Cutter 的安卓使用者可以選擇:瀏覽廣告或允許應用程式使用“你裝置的一些資源(WiFi 和非常有限的蜂窩資料)。”如果你同意讓這個應用程式使用你的資源,Luminati 會每天使用你的手機幾秒鐘,當它閒置的時候可以路由客戶機器人的請求,並嚮應用製造商支付費用。 Beka 沒有迴應記者的置評請求。

正在進行的機器人和滑鼠之戰提出了一個問題:你如何檢測一個機器人?這很棘手。有時候,機器人實際上會告訴它們正在訪問的網站它們是機器人。當一個軟體訪問web伺服器時,它會發送一點資訊以及它對頁面的請求。傳統瀏覽器宣稱自己是谷歌Chrome、微軟Edge或其他瀏覽器。機器人可以用這個過程告訴伺服器它們是機器人。但是它們也可以撒謊。檢測機器人的一種技術是訪問者訪問網站的頻率。如果訪問者每分鐘提出數百個請求,就很有可能是機器人。另一種常見的做法是檢視訪問者的網際網路協議地址。例如,如果它來自雲端計算服務,這暗示它可能是機器人,而不是普通的網際網路使用者。

沙烏爾說,偽裝機器人流量之類的技術使得依賴網際網路地址“幾乎毫無用處”。 Captchas可以提供幫助,但是它們會給合法使用者帶來不便。 所以 Akamai 正在嘗試一些不同的東西。 它不僅僅尋找機器人的共同行為,也在尋找人類的共同行為,並讓這些使用者通過。

當你點選手機上的一個按鈕時,你的手機就會輕輕的移動。手機的加速度計和陀螺儀可以檢測到這種移動,併發送到Akamai的伺服器。微小移動資料的存在是證明使用者是人類的線索,它的缺失則是使用者可能是機器人的線索。

Luminati的執行長奧弗·維倫斯基(Ofer Vilenski)表示,該公司還沒有提供一個能解決這個問題的方法,因為這是一個相對不常見的做法。 但是沙烏爾認為,機器人制造商們找到應對方式只是時間問題。 然後就是新一輪創新的時候了。 網際網路機器人軍備競賽也是如此。

好機器人和壞機器人

對於Akamai和其他試圖管理機器人相關流量的公司來說,一個巨大挑戰是需要允許一些但不是所有的機器人來抓取網站上的資料。如果網站完全遮蔽了機器人,它們就不會出現在搜尋結果中。零售商通常也希望他們的商品和價格出現在價格比較網站上,比如谷歌購物和Price Grabber 。

“真的有很多不同的場景,爬蟲在網際網路上被用於好的,壞的,或者在中間地帶的某個地方,”沙烏爾說。 “我們在Akamai有一大批客戶來幫助我們,處理機器人而不是人類訪問它們網站的整體問題。”

一些公司也會爬自己的網站。安德魯·福格(Andrew Fogg)是一家名為Import.io的公司的聯合創始人,該公司提供基於網路的工具來收集資料。福格說,io的一個客戶是一家大型零售商,有兩個庫存系統,一個用於倉庫操作,一個用於電子商務網站。但是這兩個系統經常不同步。因此,該公司需要爬自己的網站,來尋找差異。該公司可以更緊密地整合其資料庫,至少在短期內,使用爬蟲來收集資料更具成本效益。

其他的爬蟲則運用於灰色地帶。沙烏爾以航空業為例。旅遊價格比較網站可以給航空公司帶來業務,航空公司希望它們的航班顯示在這些網站的搜尋結果中。但是許多航空公司依靠像Amadeus IT和Sabre這樣的外部公司來管理它們的預訂系統。當你通過這些航空公司查詢航班資訊時,航空公司有時必須向訂票系統付費。如果大量機器人不斷巡檢航空公司各個航班的座位和價格資訊,這些費用就會增加。

沙烏爾說,Akamai通過展示機器人快取的定價資訊幫助一些航空公司客戶解決了這個問題,這樣航空公司就不會在機器人每次檢查價格和可用性時都詢問外部公司。機器人不會得到最新的資訊,但是他們會得到合理的新資料,而不會給航空公司帶來太多的成本。

然而,其他流量顯然是有問題的,例如分散式拒絕服務( DDoS )攻擊,其目的是通過向網站灌輸流量來攻擊一個網站。例如,一位發言人說,亞馬遜並沒有完全阻止機器人,包括價格爬蟲。但是該公司確實“在需要的時候優先考慮人類而不是機器人,以確保我們提供給顧客更好的亞馬遜購物體驗。”

福格說Import.io並沒有被阻止太多。該公司試圖成為一個“好公民”,防止其軟體過於頻繁地訪問伺服器或使用大量資源。

維倫斯基說, Luminati 的客戶有充分的理由假裝成不是機器人。例如, 一些出版商希望確保廣告商向網站的使用者展示的廣告,和它們向出版商展示的廣告一樣。

儘管如此,該公司的商業模式在2015年引起了人們的關注,當時其姊妹公司 Hola VPN 的一項類似服務被用來對8chan網站發起 DDoS 攻擊。 本月早些時候,Hola VPN 的 Chrome 擴充套件被指責用於竊取加密貨幣服務 MyEtherWallet 使用者的密碼。 在一篇部落格文章中,Hola VPN 稱其谷歌 Chrome 商店賬戶已經被侵入,攻擊者在擴充套件中添加了惡意軟體。 維倫斯基說,公司會仔細審查客戶,包括用視訊電話和一些步驟來驗證潛在客戶的身份。 他拒絕就Luminati服務的惡意用途發表評論。 不管有沒有爭議, 維倫斯基說,公司的業務在過去的一年裡增長了三倍。