1. 程式人生 > >如何快速開發人人貸散標資訊採集爬蟲呢?

如何快速開發人人貸散標資訊採集爬蟲呢?

本文主要介紹“人人貸散標資訊採集爬蟲”(以下簡稱“人人貸散標爬蟲”)的使用教程及注意事項。

採集網址: https://www.renrendai.com/loan.html

使用功能點:

· 從單個頁面採集多條資料

· initCrawl、onProcessContentPage和afterExtractField回撥函式

通過採集與分析人人貸散標資訊,可以瞭解到貸款使用者的資金使用流向,還能進一步挖掘出更深層次的資料。

接下來,教你如何開發“人人貸散標爬蟲”,並在雲端採集和匯出資料:

1. 開啟網頁,發現一個頁面中有多條資料

2. 然後,通過Chrome瀏覽器的開發者工具分析網頁的所有請求,點選多頁後發現網頁資料是通過AJAX非同步加載出來的,這裡可以得到獲取資料的連結“

https://www.renrendai.com/loan/list/loanList?startNum=1&limit=10&_=1533810915505

3. 由於非同步載入的資料都是JSON格式,所以很好處理,此處不做贅述。由於網頁的第一頁比較特殊,因為資料在網頁原始碼中,但其他頁面資料都是非同步載入的,千萬別被迷惑了,分析時,要多分析幾個網頁頁面。

4. 爬蟲開發完成,測試沒問題後,進入“人人貸散標爬蟲”設定頁面,你可以“調整爬蟲名稱和描述”、“選擇檔案雲託管方式”以及“設定代理IP種類等”,最後別忘了點“儲存”。

5. 然後,進入“人人貸散標爬蟲”總覽頁,點選“啟動爬蟲”,需自行配置爬蟲執行期間所使用的節點數,並選擇是否設定定時任務後,啟動爬蟲,爬蟲便開始爬取資料,過一會兒,你就能在“爬取結果”頁檢視爬到的散標資訊了。

6. 當爬蟲爬到資料後,你可以選擇將資料“釋出到資料庫/網站/媒體”中。此外,你還可選擇將資料“匯出”。

“人人貸散標爬蟲”散標資訊匯出示例展示,如下圖所示:

人人貸散標資料採集難度不大,各大平臺(如,神箭手雲爬蟲平臺)都能支援開發。