1. 程式人生 > WINDOWS開發 >十九、通過Scrapy提供的API在程式中啟動爬蟲

十九、通過Scrapy提供的API在程式中啟動爬蟲

Scrapy在Twisted非同步網路庫上構建,所以如果程式必須在Twisted reactor裡執行

1、方式一:使用CrawlerProcess類

  CrawlerProcess類(scrapy.crawler.CrawlerProcess)內部將會開啟Twisted reactor、配置log和設定Twisted reactor自動關閉。

  可以在CrawlerProcess初始化時傳入設定的引數,使用crawl方式執行指定的爬蟲類

  ```

  if __name__=="__main__":

    process = CrawlerProcess(

      {

        "USER_AGENT":"Mozilla/5.0 ....",

      }

    )

    process.crawl(爬蟲類)

    process.start()

  ```

  也可以在CrawlerProcess初始化時傳入專案的settings資訊,在crawl方法中傳入爬蟲的名字

  ```

  if __name__=="__main__":

    process = CrawlerProcess(

      project_settings()

    )

    process.crawl(爬蟲名)

    process.start()

  ```

2、方式二:使用CrawlerRunner

  使用CrawlerRunner時,在spider執行結束後,必須自行關閉Twisted reactor,需要在CrawlerRunner.crawl所返回的物件中添加回調函式。

  ```

  if __name__=="__main__":

    configure_logging({"LOG_FORMAT":"%(levelname)s:%(message)s"})  # 使用configure_logging配置了日誌資訊的列印格式

    runner = CrawlerRunner()

    d = runner.crawl(爬蟲類)  # 通過CrawlerRunner的crawl方法新增爬蟲

    d.addBoth(lambda _:reactor.stop())  # 通過addBoth新增關閉Twisted reactor的回撥函式

    reactor.run()

  ```

3、在一個程序中啟動多個爬蟲

  1、CrawlerProcess方式實現

    ```

    import scrapy

    from scrapy.crawler import CrawlerProcess

    class Myspider_1(scrapy.Spider):

      ...

    class Myspider_2(scrapy.Spider):

      ...

    process = CrawlerProcess()

    process.crawl(Myspider_1)

    process.crawl(Myspider_2)

    process.start()

    ```

  2、CrawlerRunner方式實現

    1、第一種方式

      ```

      import scrapy

      from twisted.internet import reactor

      from scrapy.crawler import CrawlerRunner

      from scrapy.utils.log import configure_logging

      

      class Myspider_1(scrapy.Spider):

        ...

      class Myspider_2(scrapy.Spider):

        ...

      configure_logging()

      runner = CralwerRunner()

      runner.crawl(Myspider_1)

      runner.crawl(Myspider_2)

      d = runner.join()

      d.addBoth(lambda _: reactor.stop())

      reactor.run()

      ```

    2、第二種方式

      ```

      from twisted.internet import reactor,defer

      from scrapy.crawler import CrawlerRunner

      from scrapy.utils.log import configure_logging

      class Myspider_1(scrapy.Spider):

        ...

      class Myspider_2(scrapy.Spider):

        ...

      configure_logging()

      runner = CrawlerRunner()

      @defer.inlineCallbacks

      def crawl():

        yield runner.crawl(Myspider_1)

        yield runner.crawl(Myspider_2)

        reactor.stop()

      crawl()

      reactor.run()

      ```