1. 程式人生 > 實用技巧 >scrapy框架爬蟲的主要步驟:

scrapy框架爬蟲的主要步驟:

1.進入你要建立爬蟲專案的目錄,例如我的:cd E:\spiders_test\day7

2.使用命令:scrapy startproject Daomu 建立爬蟲專案

3.進入專案:cd Daomu

4.編輯器開啟剛剛建好的專案,先設定:items檔案(定義要爬取的資料結構(把資料交給管道)),比如我的就是:

import scrapy

class DaomuItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# pass
#卷名
juan_name=scrapy.Field()

#章節數量
zh_num = scrapy.Field()
#章節名字
zh_name = scrapy.Field()
#章節連結
zh_link = scrapy.Field()
#章節內容
zh_content = scrapy.Field()
5.編寫爬蟲檔案實現資料抓取,比如我的就是spiders/daomu.py
6.設定管道檔案,pipelines;實現資料處理:
class DaomuPipeline(object):
def process_item(self, item, spider):
# return item

filename='./tt.txt'.format(
item['juan_name'],
item['zh_num'],
item['zh_name']
)
f=open(filename,'w')
f.write(item['zh_content'])
f.close()
return item
7.設定settings檔案:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0',
}

ITEM_PIPELINES = {
'Daomu.pipelines.DaomuPipeline': 300,
}'
8.新建begin檔案,實現資料爬取的啟動入口:
from scrapy import cmdline

cmdline.execute('scrapy crawl daomu'.split())
以上就是爬取資料的大致步驟,當然,有的是放到mongodb,或者mysql,或者excel檔案中,還需要在pipelines進一步設定