前嗅ForeSpider教程:採集表格/列表頁中的資料(翻頁)
以孔夫子舊書網的最近出版板塊為例(http://www.kongfz.com/1004/)為例,採集列表頁的所有資料:
第一步:新建任務
①擊左上角“加號”新建任務,如圖1:
②在彈窗裡填寫採集地址,任務名稱如圖2:
③點選下一步,選擇進行資料抽取還是連結抽取,本次採集需要採集當前板塊的列表頁所有內容,所以只需要在同一個模板中進行翻頁連結抽取以及資料抽取即可。此處需要勾選“抽取連結”-“普通翻頁”以及“抽取資料”,如圖3:
第二步:建立/選擇表單
在ForeSpider爬蟲中,表單是可以複用的,所以可以在資料表單出直接選擇之前建過的表單,也可以通過表單ID來進行查詢並關聯資料表單。此處使用的是的舊書網的表單,如圖4
方法一:通過下拉選單或表單ID選擇已有表單
方法二:點選建立表單進入快速建表頁面,新建表單
方法三:點選“採集配置”-“資料建表”,點選採“採集表單”後面的 如圖5
第三步:配置表單
根據所需內容,配置表單欄位(即表頭),此處配置了包括標題、作者、價格三個欄位,表單如圖6
第四步:欄位取值
取值方法:由於此處活取的是列表頁的資料,所以可以應用“識別列表”功能,直接取到列表資料,操作方法如下:
①點選“資料抽取-舊書網”,按住ctrl+滑鼠左鍵點選任意一部分內容,如圖7,選中標題
②按住Shift+滑鼠左鍵繼續點選,直到點選到選中整個第一條資料,如圖8
③在軟體的右下角可以看到“識別列表”按鈕 ,此時點選“識別列表”,如圖9,此時列表中的內容都已經選中。
③對每個欄位進行取值,方法依然是:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。
如:price-cover欄位
首先在左側點到price-cover欄位上,在瀏覽器中對該欄位進行取值.
<1>按住ctrl+滑鼠左鍵,點選“新書”
<2>按住shift+滑鼠左鍵繼續點選,直到選中圖10中的全部內容
<3>點選右下角“確認選區”
第五步:模板預覽
①標右鍵點選“資料抽取”,然後點選“模板預覽”,如圖11
②預覽結果如圖12
第六步:應用定位過濾,過濾翻頁連結
①標點選“連結抽取-普通翻頁”,內建瀏覽器拉到最底端找到翻頁,如圖13
②按住Ctrl+滑鼠左鍵點選第一頁,按住shift+滑鼠左鍵,擴大選區,直到選中整行,如圖14
③點選“確認選區”
④點選“採集預覽”檢視連結過濾是否完全,此處由於只有一個模板,所以連結和資料在同一個預覽框裡,直接點選預覽的結果如圖15
⑤點選“連結資訊數目”,檢視對應的連結,如圖16,由於第9頁之後直接就是第15頁,如果怕中間頁數取不到,可以雙擊第9頁試試看
第七步:採集預覽
雙擊任意一頁連結,點選“舊書網”均可得到對應的列表資料如圖17