1. 程式人生 > >爬蟲--Scrapy-持久化儲存操作

爬蟲--Scrapy-持久化儲存操作

總體概況

持久化儲存操作:
a.    磁碟檔案
a)    基於終端指令
i.    保證parse方法返回一個可迭代型別的物件(儲存解析到的頁面內容)
ii.    使用終端指令完成資料儲存到制定磁碟檔案中的操作
1.    scrapy crawl 爬蟲檔名稱 –o 磁碟檔案.字尾
b)    基於管道
i.    items:儲存解析到的頁面資料
ii.    pipelines:處理持久化儲存的相關操作
iii.    程式碼實現流程:
1.    將解析到的頁面資料儲存到items物件
2.    使用yield關鍵字將items提交給管道檔案進行處理
3. 在管道檔案中編寫程式碼完成資料儲存的操作 4. 在配置檔案中開啟管道操作 b. 資料庫 a) mysql b) redis c) 編碼流程: 1. 將解析到的頁面資料儲存到items物件 2. 使用yield關鍵字將items提交給管道檔案進行處理 3. 在管道檔案中編寫程式碼完成資料儲存的操作 4. 在配置檔案中開啟管道操作 需求:將爬取到的資料值分別儲存到本地磁碟、redis資料庫、mysql資料。 1. 需要在管道檔案中編寫對應平臺的管道類 2. 在配置檔案中對自定義的管道類進行生效操作
***問題:針對多個url進行資料的爬取 解決方案:請求的手動傳送