1. 程式人生 > >數據采集工具:八爪魚

數據采集工具:八爪魚

兩種 移動 cor pre back 能夠 快捷 自由 setup

數據采集工具:八爪魚

目錄

一.八爪魚介紹
二.安裝八爪魚
三.采集原理
四.快速入門
五.登陸
六.基本排錯
七.提取、導出數據

  

一.八爪魚介紹

八爪魚是一款通用的網頁數據采集器,能夠采集98%的網頁。
可簡單快速地將網頁數據轉化為結構化數據,存儲為EXCEL或數據庫等多種形式,並且提供基於雲計算的大數據雲采集解決方案。
八爪魚作為一款通用的網頁數據采集器,並不針對於某一網站某一行業的數據進行采集,而是網頁上所能看到或網頁源碼中有的文本信息,幾乎都能采集。
官網:https://www.bazhuayu.com/

二.安裝八爪魚

1.進入官網註冊,因為下載使用要登錄才能使用各項功能。

2.請雙擊OctopusSetup.exe開始安裝。

3.安裝完成後在開始菜單或者桌面均可以找到八爪魚采集器快捷方式。

4.啟動八爪魚采集器並登陸。

  

安裝提示:

本軟件需要.NET3.5 SP1支持,Win 7已經內置支持,XP系統需要安裝,部分Win10系統可能也需要安裝。

軟件會在安裝時自動檢測是否安裝了.NET 3.5 SP1,如果沒有安裝則會自動從微軟官方在線安裝,

國內在線安裝速度很慢,建議先從:http://pan.baidu.com/s/1nu5VbTJ 下載安裝.NET 3.5 SP1,然後再安裝八爪魚采集器。

三.采集原理

八爪魚采集器的核心原理是:基於Firefox內核瀏覽器,通過模擬人瀏覽網頁的行為(如打開網頁,點擊網頁中的某個按鈕等操作),對網頁內容進行全自動提取。
內置火狐內核瀏覽器,模擬人瀏覽網頁、復制數據的行為, 通過設計工作流程,自動化采集數據。

  技術分享圖片

四.快速入門

在八爪魚客戶端中,采集和導出數據主要經過以下3個步驟:
1、選擇采集模式
2、配置任務
3、配置完成後,選擇采集方式,本地采集或雲采集
4、采集完成,導出數據

 

選擇采集模式

技術分享圖片
簡易模式下內置了國內一些主流網站的采集規則。如果要采集的網站和字段在簡易模式的模板中,可直接調用。

註意:可自定義修改參數,以采集所需數據。

建議:
如果不能確定需要多少頁數據,建議打開網站看一看每頁數據量做簡單計算後設置,如果還是不能確定,建議稍微多設置一點翻頁,因為多采集的數據可以在Excel當中進行刪減,如果少采集了數據,簡易模式下只能從頭開始重新采集。
簡易模式 技術分享圖片
智能模式下,只需要輸入網址,點擊搜索,八爪魚便會自動采集網頁數據並以表格形式呈現出來。可以進行刪除或修改字段、翻頁、數據導出等操作,以excel格式導出。

試用情況:網頁中數據以表格或列表形式呈現的網頁。例如電商網站商品列表的商品信息、一些生活服務類的網站等等。

此外,智能模式還可以輸入關鍵詞搜索數據。比如搜索“天氣”,點擊查詢後,可以跳轉到數多多規則市場。在數多多上可以直接查找到相關的數據或規則。用戶可以通過下載,獲取數據或規則,規則可以放到八爪魚中運行,以獲取想要的數據。
智能模式 技術分享圖片
向導模式,通過簡單易懂的語言,指引用戶熟悉網頁結構,認識八爪魚采集流程。通過向導模式,可明白規則配置的方法和八爪魚采集器的采集思路

在智能模式、簡易模式不能滿足需求的時候,建議優先使用向導模式,使用熟練後可以使用自定義模式進行采集,采集更自由、更效率。

示例網址:
https://coll.jd.com/list.html?sub=13321 https://coll.jd.com/list.html?sub=13322
向導模式 技術分享圖片
自定義模式是八爪魚用戶使用最多的一種模式,需要自行配置規則,可以實現全網98%以上網頁數據的采集。經過采集原理講解與向導模式試煉,我們大致理解了八爪魚采集數據的邏輯,接下來需使用自定義采集模式,自行配置規則,抓取網頁數據。

使用自定義模式配置規則,抓取數據,涉及打開網頁、建立循環列表、建立翻頁循環、配置字段、啟動采集等多個基礎操作。
自定義模式

配置任務

流程步驟:在八爪魚采集器中,一共有11個流程設計操作
                 其中分為常用步驟和進階步驟

常用步驟:1)打開網頁
	2)循環翻頁
	3)循環列表
	4)點擊元素
	5)提取元素

進階步驟:1)輸入文字                   2)識別驗證碼
	3)切換下拉選項	  4)判斷條件
	5)移動鼠標到元素上	  6)結束循環
	7)結束流程	

  

選擇采集方式

本地采集(單機采集),即使用自己的電腦進行采集。

可以實現絕大多數網頁數據的爬取,可以在采集過程中對數據進行初步的清洗。如使用八爪魚自帶的正則工具,利用正則表達式將數據格式化,可在數據源頭實現去除空格、篩選日期等多種操作。

其次八爪魚還提供分支判斷功能,可對網頁中信息進行是與否的邏輯判斷,實現用戶篩選需求。

  

雲采集,是使用八爪魚提供的雲服務集群進行數據采集,不占用本地電腦資源。當規則配置好之後,啟動雲采集,可關掉自己的電腦,實現無人值守。

功能:定時采集,實時監控,數據自動去重並入庫,增量采集,自動識別驗證碼,API接口多元化導出數據。

速度:利用雲端多節點並發運行,采集速度將遠超於本地采集(單機采集)。

防封:具有多節點,多IP,可避免網站的IP封鎖,實現采集數據的最大化。

  

入門練習

單網頁數據采集
?單網頁                        示例網址:http://www.skieer.com/guide/demo/simplemovies2.html
?單網頁列表                 示例網址:http://www.skieer.com/guide/demo/genremovies2.html
?單網頁列表詳情          示例網址:http://www.skieer.com/guide/demo/navmovies2.html

分頁數據采集
?分頁列表                    示例網址:http://www.skieer.com/guide/demo/genremoviespage1.html
?分頁列表詳情             示例網址:http://www.skieer.com/guide/demo/moviespage1.html

分頁列表數據采集

1.點擊自定義采集

技術分享圖片

2.輸入網址:https://www.bazhuayu.com/tutorial/hottutorial

技術分享圖片

3.構建分頁,點擊分頁的下一頁,循環點擊單個鏈接

4.構建列表,連續點擊兩個標題,然後點擊循環點擊每個元素

技術分享圖片

4.設置采集數據字段,點擊標題,時間和閱讀量,獲取標簽內容

技術分享圖片

5.查看流程

技術分享圖片

6.最後點擊開始采集,選擇本地采集,導出數據

註意事項

技術分享圖片
在不同網頁中,同一步驟,操作提示框中出現的提示可能不同
因網頁源碼不同,同一個步驟中,操作提示框中出現的提示可能稍有不同,但邏輯是一樣的,請大家靈活處理
例:以循環翻頁為例,“循環點擊下一頁”、“循環點擊單個元素”、“循環點擊單個鏈接”從本質上是一樣的,都是不斷點擊翻頁按鈕進行翻頁,但因網頁結構不同,提示稍有不同

創建循環的兩種方式,具有特殊情況
?常見情況
列表采集:選中一個元素-選中子元素-選中全部-采集數據
列表及詳情采集:選中一個鏈接-選中全部-循環點擊每個鏈接
?特殊情況
但有些網頁會有特殊情況,需要我們靈活處理,具體請看此視頻教程:
分頁采集和創建循環的兩種方式 http://www.bazhuayu.com/tutorial/fenyecaiji

八爪魚支持嵌套循環,不支持並列循環
?針對同一頁面只能建立1個循環列表
存在想要采集列表數據,也想要采集詳情頁數據的情況,錯誤做法:建立2個循環循環列表
正確做法:建立1個循環列表,循環中包括“提取列表頁數據”和“點擊元素”步驟
註意事項,一定要看!

數據采集工具:八爪魚