1. 程式人生 > >scrapy基本操作

scrapy基本操作

建立專案
scrapy startproject ****(專案名)

建立一個基礎爬蟲類
scrapy genspider ****spiders名)  "–---"(爬蟲作用範圍)
例:scrapy genspider meiju meijutt.com
scrapy genspider -t 模板名字 爬蟲名字 爬蟲的網址
執行命令,執行程式 scrapy crawl ****(爬蟲名).
用於除錯
scrapy shell
爬蟲的網址
例:scrapy shell meijutt.com
 
items.py 負責資料模型的建立,類似於實體類。存放的是我們要爬取資料的欄位資訊
middlewares.py 自己定義的中介軟體。
pipelines.py 負責對spider返回資料的處理。可以讓寫入到資料庫,也可以讓寫入到檔案等等。
settings.py 負責對整個爬蟲的配置。
spiders目錄 負責存放繼承自scrapy的爬蟲類。為主要的爬蟲程式碼,包括了對頁面的請求以及頁面的處理
scrapy.cfg scrapy基礎配置