1. 程式人生 > >“擬人化”信息檢索——RPA“爬蟲思路”大有可為

“擬人化”信息檢索——RPA“爬蟲思路”大有可為

ogl 阻止 一定的 多功能 競爭對手 付出 反爬蟲 會有 需要

伴隨公司RPA產品不斷拓展,客戶的需求也呈現多樣化的趨勢。最近在證券類客戶中,有這樣一個需求,就是網頁信息抓取工作(例如劵商自動給客戶發最新的資訊信息郵件,而這些工作通常都是在額外的工作時間完成的)。
用傳統的編程方式對這個問題的解決會有一個難點——對網頁元素定位和獲取比較困難,往往頁面有一點點修改,就需要對項目構架進行調整,加大了維護成本。

而我們面對這些難點,我們使用了“爬蟲”的部分思路和構架,取得了意向不到的成果。

腦補知識
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取網頁信息的程序或者腳本。爬蟲技術有非常多的公司使用,如:Google、百度、去哪兒等。嗯,舉個我們最熟悉的:“人肉”。我們驚訝它的無孔不入,那麽這些信息從哪來的呢?我告訴你,就是通過爬蟲從各個網站爬取的。

爬蟲可以快速的抓取網站上的大量數據,因此可能會對目標網站造成一定的流量壓力。同時爬蟲會被區分為“好”爬蟲和“壞”爬蟲。(網站所有者來決定孰好孰壞,通常搜索引擎是“好”爬蟲,競爭對手的爬蟲都是“壞”爬蟲)。網站和爬蟲之間互有***,就出現了這樣的概念:爬蟲、反爬蟲、反反爬蟲。這個概念可能有點繞,我們可以這樣理解:就是你想要,我不給並加了把鎖;然後,我就是想要,配把鑰匙開鎖……

這個對抗可以一直循環下去,圖形越來越大,而圖形越大代表著雙方付出的代價越高(涉及的內容有:間隔時間、Cookies、user-agent、IP、文字圖片化、假鏈接、假數據、誤傷率等)。

讓這個循環達到平衡不是因為雙方頓悟,而是因為彼此的邊際貢獻趨近於負數。說簡單點兒就是:追求完美的成果,代價一定是對應“完美”的價格,適可而止才是一門藝術。

image.png
.
現階段,爬蟲技術在RPA並沒有大規模應用。但伴隨技術和客戶需求的發展,個人感覺,RPA未來會介入更多基礎之上的工作,而爬蟲技術也將會大展空間,畢竟RPA的“此爬蟲”,是有益的“爬蟲”。
這裏要講一下RPA的初衷:
傳統軟件更多是對於整個工作整體進行設計的,例如數據庫操作,報表操作,數據的計算整等但這些軟件都需要人去操作,有時候數據要一項一項的整理,計算要一個一個的。RPA相對於其他軟件來說區別最大的是“機器人化”和“擬人化”,他可以是單獨的軟件,也可以結合其他的軟件,他目前可代替人的基礎操作(簡單的、重復的),而在未來,我想想RPA也將可以代替基礎之上的操作,那麽RPA和爬蟲技術的結合,也有很大的期待性。

RPA和爬蟲技術更多結合的期待性探討

1、從目前來看, RPA的更多的是從事基礎工作,從網頁數據的數據更多是“擬人化的”,因而數據量相對不多,而且頻率相對較低,反爬蟲大概率不會進行封鎖,因為誤傷率是反爬蟲非常在意的指標。
2、從未來來設想的話,如果RPA僅僅是模擬人的操作做的足夠“擬人”的話,執行特定操作的話,反爬蟲是很難通過模式識別的手段,精準區分人的操作和RPA的操作的,從這一點來說RPA在爬蟲上的應用就更加可期了。
3、從實際的情況來看,RPA的本質是代替人的操作,是幫助信息做有價值的傳遞(例如上文中提到的例子,企業的信息由證券公司做免費的傳播,這對企業是有價值的,網站沒有必要對證券公司的正常需求進行反爬蟲封鎖)。
4、從個人感覺來看,爬蟲初創的時候,總是夾雜 “人肉”的性質,(抱歉個人感覺很多時候是這個功能夾雜著貶義,很多爬蟲有“人肉”的 “壞”用途)RPA要做有益信息傳遞,更多功能是檢索和有價值的信息傳播,"反爬蟲"為什麽要阻止呢?並且是RPA正常的“擬人”化常規信息收集工作,從這一點來看,爬蟲技術未來在RPA上的應用將大有可為!

“擬人化”信息檢索——RPA“爬蟲思路”大有可為