一個比較好用的網路爬蟲軟體GooSeeker
最近要蒐集一些新聞語料,看論文發現一個叫GooSeeker的爬蟲軟體還不錯,看了一天多的教程終於跑起來了,趁著這會在抓新浪新聞過來發篇blog。
這個爬蟲是作為Firefox的外掛出現的。一開始還覺得不夠強大,後來一想著不正好把跨平臺任務交給火狐去做了麼,作者真是高明!我是在win7下跑的,linux沒試過。
說說黑盒兩端吧,我是爬新浪新聞,由這個列表進去再爬新聞內容,最後給出的是由新聞標題和文字內容組成的xml檔案,xml很規整,便於下一步自己處理。
主要有兩個部分組成吧MetaStudio和DataScraper。前者是定義抓取規則的,比較麻煩,主要時間再看這個。後者是抓取外掛。
下邊就流水講怎樣爬這個2級頁面的吧
首先開啟MetaStudio,將網址放進去,它自動載入進去。
新建一個主題
然後新建bucket,這裡邊的東西就是你要在該頁面爬取得東西。
剛bucket裡的資訊屬性新增對映。這裡有資料對映和FreeFormat對映,前邊就是字元對應了,後邊這個是他家的特色菜。比較智慧吧。
然後新增翻頁線內線索Marker,就是控制你下一頁下一頁的
然後新增二級索引,就是給bucket裡的超連結新增的,定義一個主題
然後上傳到伺服器
然後開啟DataScraper開始爬這個列表頁,等你覺得夠了就退出就行,我現在還沒弄懂怎麼自動停止。
然後回到metaStudio,在裡面識別你給二級索引建立的主題
然後他自動載入一個樣本頁面,你再選擇要抓取那些內容
然後上傳到伺服器
然後然後開啟DataScraper開始爬二級頁面,記著要用多少頁面就寫多少索引
研究了一天半才大致弄清楚這個怎麼個工作原理,然後才感覺這個軟體寫的好。真好。完全成了一個知識體系。看出製作團隊功底很深。這種團隊或個人早晚會發吧,或者人家已經發了。。。