一步步教您學會大資料採集之“什麼值得買”推薦商品資料採集教程
本文主要介紹如何使用后羿採集器的智慧模式,免費採集“什麼值得買”商品價格、圖片、標題及推薦人等資訊。
採集工具簡介:
后羿採集器是一款基於人工智慧技術的網路爬蟲工具,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三種作業系統(包括Windows、Mac和Linux)的資料採集軟體。
這是一款真正免費的資料採集軟體,對採集結果匯出沒有任何限制,沒有程式設計基礎的小白使用者也可輕鬆實現資料採集要求。
官方網址:http://www.houyicaiji.com/
採集物件簡介:
“什麼值得買”是一家網購產品推薦網站,同時也是集媒體、導購、社群、工具屬性為一體的消費決策平臺,網站成立於2010年6月30日,早期以優惠資訊為主,後逐漸加入海淘、原創(原晒物、經驗)、資訊、眾測百科、等多個頻道,其內容大部分來自網友推薦,每天通過網站本身、RSS、各手機客戶端及各瀏覽器外掛推送商品特價資訊,幫助廣大網友買到更有價效比網購產品。
採集欄位:
商品標題、商品連結、價格、商品描述、商品所屬網站、主圖、推薦人、商品在售情況
功能點目錄:
採集結果預覽:
匯出到Excel表格:
匯出到本地圖片:
下面我們來詳細介紹一下如何免費採集“什麼值得買”網站上推薦的商品資料,我們以毛衣為例,具體步驟如下:
步驟一:下載安裝后羿採集器,並註冊登入
1、點此開啟后羿採集器官網,下載並安裝爬蟲軟體工具—后羿採集器軟體
2、點選註冊登入,註冊新賬號,登入后羿採集器
【溫馨提示】您可以直接使用此款爬蟲軟體,不需要進行註冊,但是匿名賬戶下的任務在切換到註冊使用者時會丟失,因此建議您註冊後使用。
后羿採集器為神箭手雲旗下產品,如果您是神箭手使用者,可直接登入。
步驟二:新建採集任務
1、複製“什麼值得買”毛衣的網頁(需要搜尋結果頁的網址,而不是首頁的網址)
點此瞭解關於如何正確地輸入網址。
2、新建智慧模式採集任務
您可以在軟體上直接新建採集任務,也可以通過匯入規則來建立任務。
點此瞭解如何匯入和匯出採集規則。
步驟三:配置採集規則
1、設定提取資料欄位
在智慧模式下,我們輸入網址後軟體即可自動識別出頁面上的資料並生成採集結果,每一類資料對應一個採集欄位,我們可以右擊欄位進行相關設定,包括修改欄位名稱、增減欄位、處理資料等。
點此
由於採集軟體識別出了很多我們不需要的欄位,而我們只需要部分欄位的內容,這種情況下可以將原先識別出來的欄位全部清空,再手動新增欄位,也可以在原先欄位的基礎上進行修改。
我們新增商品標題、商品連結、價格、商品描述、商品所屬網站以及主圖等欄位,欄位設定效果如下:
2、使用深入採集功能提取詳情頁資料
在列表頁上展示出了“什麼值得買”毛衣的大部分資訊,但是如果我們想要採集到推薦人及商品在售情況的資訊,需要右擊“商品連結 ”使用深入採集功能,跳轉到詳情頁進行採集。
點此深入瞭解如何採集列表+詳情頁型別網頁。
在詳情頁面我們可以看到推薦人以及商品在售情況等資訊,我們可以點選“新增欄位”新增採集欄位,欄位設定效果如下:
步驟四:設定並啟動採集任務
1、設定採集任務
完成了採集資料新增,我們可以開始啟動採集任務了。在啟動之前我們需要對採集任務進行一些設定,從而提高採集的穩定性和成功率。
點選“設定”按鈕,在彈出的執行設定頁面中我們可以進行執行設定和防遮蔽設定,這裡我們勾選“跳過繼續採集”,設定“2”秒請求等待時間,勾選“不載入網頁圖片”,防遮蔽設定就按照系統預設設定,然後點選儲存。
點此深入瞭解如何對採集任務進行配置。
2、啟動採集任務
點選“儲存並啟動”按鈕,可在彈出的頁面中進行一些高階設定,包括定時啟動、自動入庫和下載圖片,本次示例中未使用到定時採集及自動入庫功能,勾選下載圖片到本地的功能後,點選“啟動”執行爬蟲工具。
點此深入瞭解什麼是定時採集。
點此深入瞭解什麼是自動入庫。
點此深入瞭解如何下載圖片。
【溫馨提示】免費版本可以使用非週期性定時採集功能,下載圖片功能是免費的。個人專業版及以上版本可以使用高階定時功能和自動入庫功能。
3、執行任務提取資料
任務啟動之後便開始自動採集資料,我們從介面上可以直觀的看到程式執行過程和採集結果,採集結束之後會有提醒。
步驟五:匯出並檢視資料
資料採集完成後,我們可以檢視和匯出資料,后羿採集器支援多種匯出方式(手動匯出到本地、手動匯出到資料庫、自動釋出到資料庫、自動釋出到網站)和匯出檔案的格式(EXCEL、CSV、HTML和TXT),我們選擇自己需要方式和檔案型別,點選“確認匯出”。
點此深入瞭解如何檢視和清空採集資料。
點此深入瞭解如何匯出採集結果。
【溫馨提示】:所有手動匯出功能都是免費的。個人專業版及以上版本可以使用釋出到網站功能。
再為您推薦幾個關於電商的採集教程: