scrapy框架爬蟲的主要步驟:
阿新 • • 發佈:2020-07-22
1.進入你要建立爬蟲專案的目錄,例如我的:cd E:\spiders_test\day7
2.使用命令:scrapy startproject Daomu 建立爬蟲專案
3.進入專案:cd Daomu
4.編輯器開啟剛剛建好的專案,先設定:items檔案(定義要爬取的資料結構(把資料交給管道)),比如我的就是:
import scrapy
class DaomuItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# pass
#卷名
juan_name=scrapy.Field()
#章節數量
zh_num = scrapy.Field()
#章節名字
zh_name = scrapy.Field()
#章節連結
zh_link = scrapy.Field()
#章節內容
zh_content = scrapy.Field()
5.編寫爬蟲檔案實現資料抓取,比如我的就是spiders/daomu.py
6.設定管道檔案,pipelines;實現資料處理:
class DaomuPipeline(object):
def process_item(self, item, spider):
# return item
filename='./tt.txt'.format(
item['juan_name'],
item['zh_num'],
item['zh_name']
)
f=open(filename,'w')
f.write(item['zh_content'])
f.close()
return item
7.設定settings檔案:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0',
}
ITEM_PIPELINES = {
'Daomu.pipelines.DaomuPipeline': 300,
}'
8.新建begin檔案,實現資料爬取的啟動入口:
from scrapy import cmdline
cmdline.execute('scrapy crawl daomu'.split())
以上就是爬取資料的大致步驟,當然,有的是放到mongodb,或者mysql,或者excel檔案中,還需要在pipelines進一步設定