“擬人化”信息檢索——RPA“爬蟲思路”大有可為
用傳統的編程方式對這個問題的解決會有一個難點——對網頁元素定位和獲取比較困難,往往頁面有一點點修改,就需要對項目構架進行調整,加大了維護成本。
而我們面對這些難點,我們使用了“爬蟲”的部分思路和構架,取得了意向不到的成果。
腦補知識
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取網頁信息的程序或者腳本。爬蟲技術有非常多的公司使用,如:Google、百度、去哪兒等。嗯,舉個我們最熟悉的:“人肉”。我們驚訝它的無孔不入,那麽這些信息從哪來的呢?我告訴你,就是通過爬蟲從各個網站爬取的。
這個對抗可以一直循環下去,圖形越來越大,而圖形越大代表著雙方付出的代價越高(涉及的內容有:間隔時間、Cookies、user-agent、IP、文字圖片化、假鏈接、假數據、誤傷率等)。
讓這個循環達到平衡不是因為雙方頓悟,而是因為彼此的邊際貢獻趨近於負數。說簡單點兒就是:追求完美的成果,代價一定是對應“完美”的價格,適可而止才是一門藝術。
.
現階段,爬蟲技術在RPA並沒有大規模應用。但伴隨技術和客戶需求的發展,個人感覺,RPA未來會介入更多基礎之上的工作,而爬蟲技術也將會大展空間,畢竟RPA的“此爬蟲”,是有益的“爬蟲”。
這裏要講一下RPA的初衷:
傳統軟件更多是對於整個工作整體進行設計的,例如數據庫操作,報表操作,數據的計算整等但這些軟件都需要人去操作,有時候數據要一項一項的整理,計算要一個一個的。RPA相對於其他軟件來說區別最大的是“機器人化”和“擬人化”,他可以是單獨的軟件,也可以結合其他的軟件,他目前可代替人的基礎操作(簡單的、重復的),而在未來,我想想RPA也將可以代替基礎之上的操作,那麽RPA和爬蟲技術的結合,也有很大的期待性。
RPA和爬蟲技術更多結合的期待性探討
1、從目前來看, RPA的更多的是從事基礎工作,從網頁數據的數據更多是“擬人化的”,因而數據量相對不多,而且頻率相對較低,反爬蟲大概率不會進行封鎖,因為誤傷率是反爬蟲非常在意的指標。
2、從未來來設想的話,如果RPA僅僅是模擬人的操作做的足夠“擬人”的話,執行特定操作的話,反爬蟲是很難通過模式識別的手段,精準區分人的操作和RPA的操作的,從這一點來說RPA在爬蟲上的應用就更加可期了。
3、從實際的情況來看,RPA的本質是代替人的操作,是幫助信息做有價值的傳遞(例如上文中提到的例子,企業的信息由證券公司做免費的傳播,這對企業是有價值的,網站沒有必要對證券公司的正常需求進行反爬蟲封鎖)。
4、從個人感覺來看,爬蟲初創的時候,總是夾雜 “人肉”的性質,(抱歉個人感覺很多時候是這個功能夾雜著貶義,很多爬蟲有“人肉”的 “壞”用途)RPA要做有益信息傳遞,更多功能是檢索和有價值的信息傳播,"反爬蟲"為什麽要阻止呢?並且是RPA正常的“擬人”化常規信息收集工作,從這一點來看,爬蟲技術未來在RPA上的應用將大有可為!
“擬人化”信息檢索——RPA“爬蟲思路”大有可為