前嗅ForeSpider采集配置界面介紹

阿新 • • 發佈：2019-01-28

pro 爬蟲 shadow 圖標設置 cto spider 預覽顯示

今天，小編為大家介紹一下，前嗅ForeSpider的采集配置界面，具體內容如下：

啟動ForeSpider采集軟件後，默認界面如圖所示。ROOT任務下有已經配置好的示例模板，點擊網站圖標即可進行采集預覽。可在任務列表選擇某一任務按照需求重新配置。

技術分享圖片
【采集配置界面】

1.任務列表

技術分享圖片
【任務列表】

任務對應著采集來源，通常一個采集來源對應著一個任務。如采集人民網時，人民網就是一個任務；通過百度采集全網信息時，百度就是一個任務；通過100個網址導航采集全球域名時，這100個網址導航就是一個任務。

2.任務屬性配置

用戶可根據采集需求與網站的設置選擇性的配置任務屬性。

任務屬性配置包括登錄網站、關鍵詞采集、瀏覽器采集、采集類型、禁用Cookie及Cookie設置6個部分。

技術分享圖片

【任務屬性配置】

（1）登錄網站

如果采集源的數據需要登錄才可以采集到，則需要配置登錄信息。開啟登錄後，右側會出現操作向導。

（2）關鍵詞采集

當采集對象是搜索欄時，需要進行關鍵詞配置。開啟關鍵詞采集後，右側會出現操作向導。

當網站登錄與采集登錄同時開啟時，可在任務屬性配置欄右側切換操作向導。

技術分享圖片
【登錄與關鍵詞采集】

（3）瀏覽器采集

通過瀏覽器插件的方式采集數據。適用於大量JS生成且采集難度大的網頁。對JS支持好，近乎於在瀏覽器上點擊，但采集效率低。

（4）采集類型

采集類型分為默認（html）和本地文件目錄兩種。

（5）禁用Cookie

禁止使用Cookie解析網頁。

（6）Cookie

當網站需要Cookie驗證才能采集時，需要配置Cookie信息。

3.模板抽取配置

技術分享圖片
【模板抽取配置】

（1）模板

模板通過一個示例地址，模板化同一層級的頁面，從而達到批量采集的效果。一個模板對應一個層級的頁面，因此同一層頁面只能配置一個模板，填寫一個示例地址，但是一個模板中可以創建多個鏈接、數據抽取，每個鏈接抽取都要關聯其他模板。

通過模板之間的關聯，模擬網站各頁面的跳轉關系。通過鏈接抽取，抽出網頁中的鏈接。通過數據抽取，抓取網頁中的數據。

（2）模板屬性配置

技術分享圖片

【模板屬性配置】

①抽取類型選擇

抽取類型包括鏈接抽取和數據抽取。

技術分享圖片

【抽取類型選擇】

②示例地址

示例地址作為樣例，成為模板，通過以該地址配置模板，可以抓取與該地址在同一層級、具有相似結構的頁面數據。

任務第一個模板的示例地址默認為創建任務時填寫的采集地址。

技術分享圖片

【示例地址】

③高級選項

高級選項包括字符編碼、文檔類型、網頁類型、主題過濾、未匹配處理模板5個部分。（不常用功能）

技術分享圖片

【高級選項】

（3）鏈接（網址）配置

技術分享圖片

【鏈接（網址）配置】

①關聯模板

關聯模板是指該“鏈接抽取”抽取出的鏈接，其下一層級頁面對應的模板，也就是在瀏覽器中，點擊鏈接打開的下一層頁面。通過模板之間的關聯，可以將網站各層級頁面關聯起來，在軟件中形成與瀏覽器相同的跳轉結構，從而完整的采集數據。

②鏈接類型

鏈接類型可分為普通網頁鏈接、圖片視頻等資源鏈接和自定義類型三種。默認選擇普通網頁鏈接。

③智能過濾

智能過濾可以一鍵過濾出，鏈接地址規律相同的鏈接。適用於大多數情況，如過濾的不正確，可以使用地址/標題過濾。

④定位過濾

定位過濾是通過內置瀏覽器定位，適用於所需鏈接都集中在一小片區域的情況。

⑤地址/標題過濾

為了在抽取的鏈接中去除無關鏈接，有兩種過濾方式，配置方式相同。地址過濾是通過url地址的規律，過濾無關鏈接。標題過濾是通過鏈接標題的規律，過濾無關鏈接。

（4）數據屬性配置

技術分享圖片

【數據屬性配置】

①數據表單

在ForeSpider爬蟲中，表單是可以復用的，所以可以在數據表單出直接選擇之前建過的表單，也可以通過表單ID來進行查找並關聯數據表單。

②點擊創建表達

若在數據抽取鏈接下，沒有相應表單可供選擇，可點擊“創建表單”按鈕，快速創建表單。可添加表單名稱、字段名稱，選擇字段類型、表單模板。（>>快速建表/>>自由建表）

③數據存儲方式

指的是數據采集時，在數據庫裏的存儲方式。

④列表數據

識別列表用於存儲表格/列表的數據，將表格/列表的不同列對應存入不同字段，表格/列表的不同行分別存儲為數據表的多條記錄。（>>如何采集列表/表格數據）

4.采集地址

采集對象的入口地址（url地址）。比如采集整個淘寶網全部商品的信息，淘寶網首頁就是入口地址。比如只采集“女裝”類別的商品信息，“女裝”首頁就是入口地址。

技術分享圖片
【采集地址】

5.內置瀏覽器

模擬不同版本的瀏覽器。填入采集地址，可點擊內置瀏覽器顯示采集頁面。

技術分享圖片

【內置瀏覽器】

前嗅ForeSpider采集配置界面介紹

pro 爬蟲 shadow 圖標設置 cto spider 預覽顯示今天，小編為大家介紹一下，前嗅ForeSpider的采集配置界面，具體內容如下： ? 啟動ForeSpider采集軟件後，默認界面如圖所示。ROOT任務下有已經配置好的示例模板，點擊網站圖標即可進行采

前嗅ForeSpider采集配置界面介紹

前嗅ForeSpider采集配置界面介紹

前嗅ForeSpider教程：通過鏈接列表采集正文數據（不翻頁）

前嗅ForeSpider教程：采集表格/列表頁中的數據（不翻頁）

前嗅ForeSpider教程：采集圖片/視頻/資源文件的鏈接地址

前嗅ForeSpider教程：采集360問答

前嗅ForeSpider教程：采集需要登陸的網頁內容

前嗅ForeSpider教程：采集CSDN

前嗅ForeSpider教程：采集網頁鏈接/源碼/時間/重定向地址等

前嗅ForeSpider教程：采集列表和正文的數據

前嗅ForeSpider教程：采集新浪新聞

前嗅ForeSpider教程：采集中國證券網

H3C交換機只能啟動到BootWare擴展字段，無法啟動到應用配置界面

Confluence 6 管理員聯系表單的後臺配置界面

前嗅ForeSpider教程：通過連結列表採集正文資料（不翻頁）

前嗅ForeSpider教程：採集表格/列表頁中的資料（翻頁）

前嗅ForeSpider教程：通過連結列表採集正文資料（翻頁）

前嗅ForeSpider教程：通過子欄目進入連結列表採集正文資料第一步：新建任務

前嗅ForeSpider教程：IP代理設定

前嗅ForeSpider指令碼教程：運算子與運算順序

前嗅ForeSpider指令碼教程：基礎物件（三）

前嗅ForeSpider采集配置界面介紹

相關推薦