數據采集工具:八爪魚
阿新 • • 發佈:2019-03-30
兩種 移動 cor pre back 能夠 快捷 自由 setup
數據采集工具:八爪魚
目錄
一.八爪魚介紹 二.安裝八爪魚 三.采集原理 四.快速入門 五.登陸 六.基本排錯 七.提取、導出數據
一.八爪魚介紹
八爪魚是一款通用的網頁數據采集器,能夠采集98%的網頁。 可簡單快速地將網頁數據轉化為結構化數據,存儲為EXCEL或數據庫等多種形式,並且提供基於雲計算的大數據雲采集解決方案。 八爪魚作為一款通用的網頁數據采集器,並不針對於某一網站某一行業的數據進行采集,而是網頁上所能看到或網頁源碼中有的文本信息,幾乎都能采集。
官網:https://www.bazhuayu.com/
二.安裝八爪魚
1.進入官網註冊,因為下載使用要登錄才能使用各項功能。 2.請雙擊OctopusSetup.exe開始安裝。 3.安裝完成後在開始菜單或者桌面均可以找到八爪魚采集器快捷方式。 4.啟動八爪魚采集器並登陸。
安裝提示:
本軟件需要.NET3.5 SP1支持,Win 7已經內置支持,XP系統需要安裝,部分Win10系統可能也需要安裝。 軟件會在安裝時自動檢測是否安裝了.NET 3.5 SP1,如果沒有安裝則會自動從微軟官方在線安裝, 國內在線安裝速度很慢,建議先從:http://pan.baidu.com/s/1nu5VbTJ 下載安裝.NET 3.5 SP1,然後再安裝八爪魚采集器。
三.采集原理
八爪魚采集器的核心原理是:基於Firefox內核瀏覽器,通過模擬人瀏覽網頁的行為(如打開網頁,點擊網頁中的某個按鈕等操作),對網頁內容進行全自動提取。 內置火狐內核瀏覽器,模擬人瀏覽網頁、復制數據的行為, 通過設計工作流程,自動化采集數據。
四.快速入門
在八爪魚客戶端中,采集和導出數據主要經過以下3個步驟:
1、選擇采集模式
2、配置任務
3、配置完成後,選擇采集方式,本地采集或雲采集
4、采集完成,導出數據
選擇采集模式
簡易模式下內置了國內一些主流網站的采集規則。如果要采集的網站和字段在簡易模式的模板中,可直接調用。 註意:可自定義修改參數,以采集所需數據。 建議: 如果不能確定需要多少頁數據,建議打開網站看一看每頁數據量做簡單計算後設置,如果還是不能確定,建議稍微多設置一點翻頁,因為多采集的數據可以在Excel當中進行刪減,如果少采集了數據,簡易模式下只能從頭開始重新采集。簡易模式
智能模式下,只需要輸入網址,點擊搜索,八爪魚便會自動采集網頁數據並以表格形式呈現出來。可以進行刪除或修改字段、翻頁、數據導出等操作,以excel格式導出。
試用情況:網頁中數據以表格或列表形式呈現的網頁。例如電商網站商品列表的商品信息、一些生活服務類的網站等等。
此外,智能模式還可以輸入關鍵詞搜索數據。比如搜索“天氣”,點擊查詢後,可以跳轉到數多多規則市場。在數多多上可以直接查找到相關的數據或規則。用戶可以通過下載,獲取數據或規則,規則可以放到八爪魚中運行,以獲取想要的數據。
智能模式
向導模式,通過簡單易懂的語言,指引用戶熟悉網頁結構,認識八爪魚采集流程。通過向導模式,可明白規則配置的方法和八爪魚采集器的采集思路 在智能模式、簡易模式不能滿足需求的時候,建議優先使用向導模式,使用熟練後可以使用自定義模式進行采集,采集更自由、更效率。 示例網址: https://coll.jd.com/list.html?sub=13321 https://coll.jd.com/list.html?sub=13322向導模式
自定義模式是八爪魚用戶使用最多的一種模式,需要自行配置規則,可以實現全網98%以上網頁數據的采集。經過采集原理講解與向導模式試煉,我們大致理解了八爪魚采集數據的邏輯,接下來需使用自定義采集模式,自行配置規則,抓取網頁數據。
使用自定義模式配置規則,抓取數據,涉及打開網頁、建立循環列表、建立翻頁循環、配置字段、啟動采集等多個基礎操作。
自定義模式
配置任務
流程步驟:在八爪魚采集器中,一共有11個流程設計操作 其中分為常用步驟和進階步驟 常用步驟:1)打開網頁 2)循環翻頁 3)循環列表 4)點擊元素 5)提取元素 進階步驟:1)輸入文字 2)識別驗證碼 3)切換下拉選項 4)判斷條件 5)移動鼠標到元素上 6)結束循環 7)結束流程
選擇采集方式
本地采集(單機采集),即使用自己的電腦進行采集。 可以實現絕大多數網頁數據的爬取,可以在采集過程中對數據進行初步的清洗。如使用八爪魚自帶的正則工具,利用正則表達式將數據格式化,可在數據源頭實現去除空格、篩選日期等多種操作。 其次八爪魚還提供分支判斷功能,可對網頁中信息進行是與否的邏輯判斷,實現用戶篩選需求。
雲采集,是使用八爪魚提供的雲服務集群進行數據采集,不占用本地電腦資源。當規則配置好之後,啟動雲采集,可關掉自己的電腦,實現無人值守。 功能:定時采集,實時監控,數據自動去重並入庫,增量采集,自動識別驗證碼,API接口多元化導出數據。 速度:利用雲端多節點並發運行,采集速度將遠超於本地采集(單機采集)。 防封:具有多節點,多IP,可避免網站的IP封鎖,實現采集數據的最大化。
入門練習
單網頁數據采集 ?單網頁 示例網址:http://www.skieer.com/guide/demo/simplemovies2.html ?單網頁列表 示例網址:http://www.skieer.com/guide/demo/genremovies2.html ?單網頁列表詳情 示例網址:http://www.skieer.com/guide/demo/navmovies2.html 分頁數據采集 ?分頁列表 示例網址:http://www.skieer.com/guide/demo/genremoviespage1.html ?分頁列表詳情 示例網址:http://www.skieer.com/guide/demo/moviespage1.html
分頁列表數據采集
1.點擊自定義采集
2.輸入網址:https://www.bazhuayu.com/tutorial/hottutorial
3.構建分頁,點擊分頁的下一頁,循環點擊單個鏈接
4.構建列表,連續點擊兩個標題,然後點擊循環點擊每個元素
4.設置采集數據字段,點擊標題,時間和閱讀量,獲取標簽內容
5.查看流程
6.最後點擊開始采集,選擇本地采集,導出數據
註意事項
在不同網頁中,同一步驟,操作提示框中出現的提示可能不同 因網頁源碼不同,同一個步驟中,操作提示框中出現的提示可能稍有不同,但邏輯是一樣的,請大家靈活處理 例:以循環翻頁為例,“循環點擊下一頁”、“循環點擊單個元素”、“循環點擊單個鏈接”從本質上是一樣的,都是不斷點擊翻頁按鈕進行翻頁,但因網頁結構不同,提示稍有不同 創建循環的兩種方式,具有特殊情況 ?常見情況 列表采集:選中一個元素-選中子元素-選中全部-采集數據 列表及詳情采集:選中一個鏈接-選中全部-循環點擊每個鏈接 ?特殊情況 但有些網頁會有特殊情況,需要我們靈活處理,具體請看此視頻教程: 分頁采集和創建循環的兩種方式 http://www.bazhuayu.com/tutorial/fenyecaiji 八爪魚支持嵌套循環,不支持並列循環 ?針對同一頁面只能建立1個循環列表 存在想要采集列表數據,也想要采集詳情頁數據的情況,錯誤做法:建立2個循環循環列表 正確做法:建立1個循環列表,循環中包括“提取列表頁數據”和“點擊元素”步驟註意事項,一定要看!
數據采集工具:八爪魚