1. 程式人生 > 實用技巧 >Scrapy安裝與應用抓取網站爬蟲

Scrapy安裝與應用抓取網站爬蟲

首先,下載Twisted。cp後數字為python版本,例如cp36為python3.6;amd則表示系統位數,例如amd64為64位。下載對應版本即可。點選開啟連結

在cmd中輸入pip install Twisted的路徑,例如下載路徑為F:\Twisted-17.9.0-cp36-cp36m-win_amd64.whl,則輸入pip install F:\ Twisted-17.9.0-cp36-cp36m-win_amd64.whl

1、新建爬蟲專案
1.1、切換到專案檔案下面
1.2、在Terminal使用srcapy startproject 爬蟲專案名稱。如:

scrapy startproject Python32000


1.3、在專案中spiders新建爬蟲區,scrapy genspider 爬蟲名稱 爬蟲區域。如:scrapy genspider itcast itcast.cn


1.4、配置,先確定我們需要爬蟲爬的資料引數,在items.py下面配置你需要的引數。
items。

class Day2Item(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
title = scrapy.Field()
info = scrapy.Field()

到spiders檔案下面的itcast,實現具體爬蟲程式碼。
items。

import scrapy
from ..items import *
class ItcastSpider(scrapy.Spider):
name = 'itcast'
allowed_domains = ['itcast.cn']
start_urls = ['http://www.itcast.cn/channel/teacher.shtml']
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
items = []
for each in response.xpath("//div[@class='li_txt']"):
# 將我們得到的資料封裝到一個 `ItcastItem` 物件
item = Day2Item()
# extract()方法返回的都是unicode字串
name = each.xpath("h3/text()").extract()
title = each.xpath("h4/text()").extract()
info = each.xpath("p/text()").extract()
# xpath返回的是包含一個元素的列表
item['name'] = name[0]
item['title'] = title[0]
item['info'] = info[0]
items.append(item)
# 直接返回最後資料
return items

1.6、執行爬蟲scrapy crawl 爬蟲名稱。如:scrapy crawl itcast。