爬蟲--Scrapy-持久化儲存操作
阿新 • • 發佈:2018-12-07
總體概況
持久化儲存操作:
a. 磁碟檔案
a) 基於終端指令
i. 保證parse方法返回一個可迭代型別的物件(儲存解析到的頁面內容)
ii. 使用終端指令完成資料儲存到制定磁碟檔案中的操作
1. scrapy crawl 爬蟲檔名稱 –o 磁碟檔案.字尾
b) 基於管道
i. items:儲存解析到的頁面資料
ii. pipelines:處理持久化儲存的相關操作
iii. 程式碼實現流程:
1. 將解析到的頁面資料儲存到items物件
2. 使用yield關鍵字將items提交給管道檔案進行處理
3. 在管道檔案中編寫程式碼完成資料儲存的操作
4. 在配置檔案中開啟管道操作
b. 資料庫
a) mysql
b) redis
c) 編碼流程:
1. 將解析到的頁面資料儲存到items物件
2. 使用yield關鍵字將items提交給管道檔案進行處理
3. 在管道檔案中編寫程式碼完成資料儲存的操作
4. 在配置檔案中開啟管道操作
需求:將爬取到的資料值分別儲存到本地磁碟、redis資料庫、mysql資料。
1. 需要在管道檔案中編寫對應平臺的管道類
2. 在配置檔案中對自定義的管道類進行生效操作
***問題:針對多個url進行資料的爬取
解決方案:請求的手動傳送