<scrapy爬蟲>scrapy命令行操作
阿新 • • 發佈:2019-03-08
行操作 名稱 令行 rule pat 打開 tex log 數據
1.mysql數據庫 2.mongoDB數據庫 3.redis數據庫 1.創建項目 scrapy startproject myproject cd myproject 2.創建爬蟲 scrapy genspider myspider www.baidu.com scrapy genspider -t crawl myspider www.baidu.com----創建有rules配置 3.運行爬蟲 scrapy crawl myspider 4.錯誤檢查 scrapy check ----檢查爬蟲的語法錯誤 5.列出爬蟲 scrapy list --返回項目裏spider名稱 6.測試網頁 scrapy fetch www.baidu.com scrapy fetch --nolog www.baidu.com ----不會生成日誌 scrapy fetch --nolog --headers www.baidu.com --輸出headers scrapy fetch --nolog --no-redirect---不會重定向 7.請求網頁 把網頁源代碼保存成文件,在用瀏覽器打開(調試工具) scrapy view http://www.baidu.com 8.命令行交互模式shell scrapy shell http://www.baidu.com request---請求的網頁 response--請求網頁的返回結果 response.text請求結果 response.headers--headers view(response)---在網頁上打開返回的結果(如果能顯示出來,說明是靜態網頁,能直接爬,如果沒顯示,說明是Ajax加載的網頁) response.xpath("")--用xpath解析網頁 9.解析網頁的內容 scrapy parse http://www.baidu.com -c parse ---前面是parse方法,後面是callback調用解析的parse方法 10.獲取配置信息 scrapy settings --get MONGO_URL---獲取配置信息 11.運行spider文件 scrapy runspider myspider.py---直接運行myspider文件(參數是文件名稱) 12.輸出版本 scrapy version scrapy version -v---輸出依賴庫的版本 13.測試 scrapy bench---測試爬行速度,反應當前運行性能
<scrapy爬蟲>scrapy命令行操作