十九、通過Scrapy提供的API在程式中啟動爬蟲
Scrapy在Twisted非同步網路庫上構建,所以如果程式必須在Twisted reactor裡執行
1、方式一:使用CrawlerProcess類
CrawlerProcess類(scrapy.crawler.CrawlerProcess)內部將會開啟Twisted reactor、配置log和設定Twisted reactor自動關閉。
可以在CrawlerProcess初始化時傳入設定的引數,使用crawl方式執行指定的爬蟲類。
```
if __name__=="__main__":
process = CrawlerProcess(
{
"USER_AGENT":"Mozilla/5.0 ....",
}
)
process.crawl(爬蟲類)
process.start()
```
也可以在CrawlerProcess初始化時傳入專案的settings資訊,在crawl方法中傳入爬蟲的名字。
```
if __name__=="__main__":
process = CrawlerProcess(
project_settings()
)
process.crawl(爬蟲名)
process.start()
```
2、方式二:使用CrawlerRunner
使用CrawlerRunner時,在spider執行結束後,必須自行關閉Twisted reactor,需要在CrawlerRunner.crawl所返回的物件中添加回調函式。
```
if __name__=="__main__":
configure_logging({"LOG_FORMAT":"%(levelname)s:%(message)s"}) # 使用configure_logging配置了日誌資訊的列印格式
runner = CrawlerRunner()
d = runner.crawl(爬蟲類) # 通過CrawlerRunner的crawl方法新增爬蟲
d.addBoth(lambda _:reactor.stop()) # 通過addBoth新增關閉Twisted reactor的回撥函式
reactor.run()
```
3、在一個程序中啟動多個爬蟲
1、CrawlerProcess方式實現
```
import scrapy
from scrapy.crawler import CrawlerProcess
class Myspider_1(scrapy.Spider):
...
class Myspider_2(scrapy.Spider):
...
process = CrawlerProcess()
process.crawl(Myspider_1)
process.crawl(Myspider_2)
process.start()
```
2、CrawlerRunner方式實現
1、第一種方式
```
import scrapy
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
class Myspider_1(scrapy.Spider):
...
class Myspider_2(scrapy.Spider):
...
configure_logging()
runner = CralwerRunner()
runner.crawl(Myspider_1)
runner.crawl(Myspider_2)
d = runner.join()
d.addBoth(lambda _: reactor.stop())
reactor.run()
```
2、第二種方式
```
from twisted.internet import reactor,defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
class Myspider_1(scrapy.Spider):
...
class Myspider_2(scrapy.Spider):
...
configure_logging()
runner = CrawlerRunner()
@defer.inlineCallbacks
def crawl():
yield runner.crawl(Myspider_1)
yield runner.crawl(Myspider_2)
reactor.stop()
crawl()
reactor.run()
```