1. 程式人生 > ><scrapy爬蟲>scrapy命令行操作

<scrapy爬蟲>scrapy命令行操作

行操作 名稱 令行 rule pat 打開 tex log 數據

1.mysql數據庫
2.mongoDB數據庫
3.redis數據庫


1.創建項目
	scrapy startproject myproject
	cd myproject

2.創建爬蟲
	scrapy genspider myspider www.baidu.com
	scrapy genspider -t crawl myspider www.baidu.com----創建有rules配置

3.運行爬蟲
	scrapy crawl myspider

4.錯誤檢查
	scrapy check ----檢查爬蟲的語法錯誤

5.列出爬蟲
	scrapy list --返回項目裏spider名稱
6.測試網頁
	scrapy fetch www.baidu.com
	scrapy fetch --nolog www.baidu.com ----不會生成日誌
	scrapy fetch --nolog --headers www.baidu.com 	--輸出headers
	scrapy fetch --nolog --no-redirect---不會重定向
7.請求網頁 把網頁源代碼保存成文件,在用瀏覽器打開(調試工具)
	scrapy view http://www.baidu.com

8.命令行交互模式shell
	scrapy shell http://www.baidu.com
	request---請求的網頁
	response--請求網頁的返回結果
	response.text請求結果
	response.headers--headers
	view(response)---在網頁上打開返回的結果(如果能顯示出來,說明是靜態網頁,能直接爬,如果沒顯示,說明是Ajax加載的網頁)
	response.xpath("")--用xpath解析網頁
9.解析網頁的內容
	scrapy parse http://www.baidu.com -c parse	---前面是parse方法,後面是callback調用解析的parse方法
10.獲取配置信息
	scrapy settings --get MONGO_URL---獲取配置信息
11.運行spider文件
	scrapy runspider myspider.py---直接運行myspider文件(參數是文件名稱)
12.輸出版本
	scrapy version
	scrapy version -v---輸出依賴庫的版本
13.測試
	scrapy bench---測試爬行速度,反應當前運行性能

  

<scrapy爬蟲>scrapy命令行操作