1. 程式人生 > >一個比較好用的網路爬蟲軟體GooSeeker

一個比較好用的網路爬蟲軟體GooSeeker

     最近要蒐集一些新聞語料,看論文發現一個叫GooSeeker的爬蟲軟體還不錯,看了一天多的教程終於跑起來了,趁著這會在抓新浪新聞過來發篇blog。

     這個爬蟲是作為Firefox的外掛出現的。一開始還覺得不夠強大,後來一想著不正好把跨平臺任務交給火狐去做了麼,作者真是高明!我是在win7下跑的,linux沒試過。

     說說黑盒兩端吧,我是爬新浪新聞,由這個列表進去再爬新聞內容,最後給出的是由新聞標題和文字內容組成的xml檔案,xml很規整,便於下一步自己處理。

     主要有兩個部分組成吧MetaStudio和DataScraper。前者是定義抓取規則的,比較麻煩,主要時間再看這個。後者是抓取外掛。

     下邊就流水講怎樣爬這個2級頁面的吧

     首先開啟MetaStudio,將網址放進去,它自動載入進去。

     新建一個主題

     然後新建bucket,這裡邊的東西就是你要在該頁面爬取得東西。

     剛bucket裡的資訊屬性新增對映。這裡有資料對映和FreeFormat對映,前邊就是字元對應了,後邊這個是他家的特色菜。比較智慧吧。

     然後新增翻頁線內線索Marker,就是控制你下一頁下一頁的

     然後新增二級索引,就是給bucket裡的超連結新增的,定義一個主題

     然後上傳到伺服器

     然後開啟DataScraper開始爬這個列表頁,等你覺得夠了就退出就行,我現在還沒弄懂怎麼自動停止。

     然後回到metaStudio,在裡面識別你給二級索引建立的主題

     然後他自動載入一個樣本頁面,你再選擇要抓取那些內容

     然後上傳到伺服器

     然後然後開啟DataScraper開始爬二級頁面,記著要用多少頁面就寫多少索引

     研究了一天半才大致弄清楚這個怎麼個工作原理,然後才感覺這個軟體寫的好。真好。完全成了一個知識體系。看出製作團隊功底很深。這種團隊或個人早晚會發吧,或者人家已經發了。。。