“擬人化”信息檢索——RPA“爬蟲思路”大有可為

阿新 • • 發佈：2019-03-28

ogl 阻止一定的多功能競爭對手付出反爬蟲會有需要

伴隨公司RPA產品不斷拓展，客戶的需求也呈現多樣化的趨勢。最近在證券類客戶中，有這樣一個需求，就是網頁信息抓取工作（例如劵商自動給客戶發最新的資訊信息郵件，而這些工作通常都是在額外的工作時間完成的）。
用傳統的編程方式對這個問題的解決會有一個難點——對網頁元素定位和獲取比較困難，往往頁面有一點點修改，就需要對項目構架進行調整，加大了維護成本。

而我們面對這些難點，我們使用了“爬蟲”的部分思路和構架,取得了意向不到的成果。

腦補知識
網絡爬蟲(又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者)，是一種按照一定的規則，自動的抓取網頁信息的程序或者腳本。爬蟲技術有非常多的公司使用，如：Google、百度、去哪兒等。嗯，舉個我們最熟悉的：“人肉”。我們驚訝它的無孔不入，那麽這些信息從哪來的呢？我告訴你，就是通過爬蟲從各個網站爬取的。

爬蟲可以快速的抓取網站上的大量數據，因此可能會對目標網站造成一定的流量壓力。同時爬蟲會被區分為“好”爬蟲和“壞”爬蟲。（網站所有者來決定孰好孰壞，通常搜索引擎是“好”爬蟲，競爭對手的爬蟲都是“壞”爬蟲）。網站和爬蟲之間互有***，就出現了這樣的概念：爬蟲、反爬蟲、反反爬蟲。這個概念可能有點繞，我們可以這樣理解：就是你想要，我不給並加了把鎖；然後，我就是想要，配把鑰匙開鎖……

這個對抗可以一直循環下去，圖形越來越大，而圖形越大代表著雙方付出的代價越高（涉及的內容有：間隔時間、Cookies、user-agent、IP、文字圖片化、假鏈接、假數據、誤傷率等）。

讓這個循環達到平衡不是因為雙方頓悟，而是因為彼此的邊際貢獻趨近於負數。說簡單點兒就是：追求完美的成果，代價一定是對應“完美”的價格，適可而止才是一門藝術。

image.png
.
現階段，爬蟲技術在RPA並沒有大規模應用。但伴隨技術和客戶需求的發展，個人感覺，RPA未來會介入更多基礎之上的工作，而爬蟲技術也將會大展空間，畢竟RPA的“此爬蟲”，是有益的“爬蟲”。
這裏要講一下RPA的初衷：
傳統軟件更多是對於整個工作整體進行設計的，例如數據庫操作，報表操作，數據的計算整等但這些軟件都需要人去操作，有時候數據要一項一項的整理，計算要一個一個的。RPA相對於其他軟件來說區別最大的是“機器人化”和“擬人化”,他可以是單獨的軟件，也可以結合其他的軟件，他目前可代替人的基礎操作（簡單的、重復的），而在未來，我想想RPA也將可以代替基礎之上的操作，那麽RPA和爬蟲技術的結合，也有很大的期待性。

RPA和爬蟲技術更多結合的期待性探討

1、從目前來看， RPA的更多的是從事基礎工作，從網頁數據的數據更多是“擬人化的”，因而數據量相對不多，而且頻率相對較低，反爬蟲大概率不會進行封鎖，因為誤傷率是反爬蟲非常在意的指標。
2、從未來來設想的話，如果RPA僅僅是模擬人的操作做的足夠“擬人”的話，執行特定操作的話，反爬蟲是很難通過模式識別的手段，精準區分人的操作和RPA的操作的，從這一點來說RPA在爬蟲上的應用就更加可期了。
3、從實際的情況來看，RPA的本質是代替人的操作，是幫助信息做有價值的傳遞（例如上文中提到的例子，企業的信息由證券公司做免費的傳播，這對企業是有價值的，網站沒有必要對證券公司的正常需求進行反爬蟲封鎖）。
4、從個人感覺來看，爬蟲初創的時候，總是夾雜 “人肉”的性質，（抱歉個人感覺很多時候是這個功能夾雜著貶義，很多爬蟲有“人肉”的 “壞”用途）RPA要做有益信息傳遞，更多功能是檢索和有價值的信息傳播，"反爬蟲"為什麽要阻止呢？並且是RPA正常的“擬人”化常規信息收集工作，從這一點來看，爬蟲技術未來在RPA上的應用將大有可為！

“擬人化”信息檢索——RPA“爬蟲思路”大有可為

ogl 阻止一定的多功能競爭對手付出反爬蟲會有需要伴隨公司RPA產品不斷拓展，客戶的需求也呈現多樣化的趨勢。最近在證券類客戶中，有這樣一個需求，就是網頁信息抓取工作（例如劵商自動給客戶發最新的資訊信息郵件，而這些工作通常都是在額外的工作時間完成的）。用傳統的

“擬人化”信息檢索——RPA“爬蟲思路”大有可為

“擬人化”信息檢索——RPA“爬蟲思路”大有可為

信息檢索——初識Trie樹

第二課、信息檢索原理

（一）信息檢索中的排序

信息檢索和自然語言處理 IR&NLP howto

爬蟲獲取mobike共享單車信息

Node.js爬蟲-爬取慕課網課程信息

oracle仿全文檢索切詞機制實現文本信息類似度查找

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

python網絡爬蟲與信息提取之request的安裝

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

python學習day15 員工信息管理系統編譯及思路

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

python網絡爬蟲與信息提取【筆記】

C#_從DataTable中檢索信息

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python 爬蟲2-正則表達式抓取拉勾網職位信息

Python網絡爬蟲與信息提取-Requests庫網絡爬去實戰

HDFS設計思路，HDFS使用，查看集群狀態，HDFS，HDFS上傳文件，HDFS下載文件，yarn web管理界面信息查看，運行一個mapreduce程序，mapreduce的demo

“擬人化”信息檢索——RPA“爬蟲思路”大有可為

相關推薦