1. 程式人生 > >初次接觸scrapy框架

初次接觸scrapy框架

self 文件夾 內容 bsp mil 分享 response 記事本 寫入

初次接觸這個框架,先訂個小目標,抓取QQ首頁,然後存入記事本。

安裝框架(http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html)

創建一個項目,項目根目錄輸入

scrapy startproject tutorial

在spiders文件夾下面新建一個qq_spider.py,寫入內容如下:

import scrapy

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["qq.com"]
    start_urls = [
        
"http://www.qq.com/" ] def parse(self, response): filename = response.url.split("/")[-2] with open(filename + ".txt", wb) as f: f.write(response.body)

項目根目錄輸入命令:

scrapy crawl dmoz

抓取到的QQ首頁的頁面:

技術分享

初次接觸scrapy框架