python 爬蟲 scrapy框架的使用 一
阿新 • • 發佈:2018-11-03
pytho clas 工程 本地 emp mpi 原理 png 下載
1 首先 安裝 scrapy :
pip install scrapy
2 用命令創建一個spider工程:
scrapy startproject spider5
3 創建一個spider文件,並指定爬蟲開始的域名:
scrapy genspider spider1 “www.baidu.com”
4開啟爬蟲:
scrapy crawl spider5
創建好的工程結構如下圖:
其中spiders裏面的為爬蟲文件,items.py為爬蟲數據模型定義文件,用於定義一些數據存儲的類別,pipelines.py為管道文件,用於接收item的返回值,處理後將item保存到本地或者數據庫中
scrapy的工作原理圖如下:
1 首先 spider1文件會將start_urls中的請求連接發給 引擎,然後引擎將這些請求傳遞給調度器(Scheduler),調度器接收這些請求鏈接並將它們入隊列
2 然後通過引擎講這些處理好的請求鏈接交給下載器去下載
3下載器將下載的結果通過引擎差傳遞給spiders進行數據解析,並返回一個item
4引擎將spiders的返回結果傳遞給管道文件(ItemPIpeline) ,管道文件接收數據將數據存儲
python 爬蟲 scrapy框架的使用 一