初次接觸scrapy框架
阿新 • • 發佈:2017-07-04
self 文件夾 內容 bsp mil 分享 response 記事本 寫入
初次接觸這個框架,先訂個小目標,抓取QQ首頁,然後存入記事本。
安裝框架(http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html)
創建一個項目,項目根目錄輸入
scrapy startproject tutorial
在spiders文件夾下面新建一個qq_spider.py,寫入內容如下:
import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["qq.com"] start_urls = ["http://www.qq.com/" ] def parse(self, response): filename = response.url.split("/")[-2] with open(filename + ".txt", ‘wb‘) as f: f.write(response.body)
項目根目錄輸入命令:
scrapy crawl dmoz
抓取到的QQ首頁的頁面:
初次接觸scrapy框架