1. 程式人生 > >一鍵採集全網80%以上的Discuz論壇資料

一鍵採集全網80%以上的Discuz論壇資料

本文主要介紹“通用Discuz論壇採集爬蟲”(以下簡稱“通用DZ爬蟲”)的使用教程及注意事項。

Discuz論壇作為CMS網站的重要一員,在網際網路上扮演著至關重要的角色,許多知名論壇都可以看到Discuz的影子,但是如此眾多的Discuz論壇,要採集起來並非易事,如何一口吃掉這麼大一塊肥肉呢?

下面給你介紹一個特好用的通用Discuz爬蟲吧~~

首先,進入“通用DZ爬蟲”總覽頁,點選爬蟲“應用設定”,配置爬蟲。你可以“調整爬蟲名稱和描述”、“選擇檔案雲託管方式”以及“設定代理IP種類、配置要採集的Discuz論壇網址、選擇要爬取的論壇版塊和需要採集的帖子回覆數量等”,最後別忘了點“儲存”。

然後,進入“通用DZ爬蟲”總覽頁,點選“啟動爬蟲”,配置爬蟲執行期間所使用的節點數,並選擇是否設定定時任務後,啟動爬蟲,爬蟲便開始爬取資料,過一會兒,你就能在“爬取結果”頁檢視爬到的論壇資料了。

當爬蟲爬到資料後,你可以選擇將資料“釋出到資料庫/網站/媒體”中,此外,你還可選擇將資料“匯出”。

“通用DZ爬蟲”論壇資料匯出示例展示,如下圖所示:

目前,能支援採集這麼多Discuz論壇的爬蟲並不多,也只有少數平臺(如,神箭手大資料平臺)支援,你可以按需使用不同的平臺~~