十九、通過Scrapy提供的API在程式中啟動爬蟲

阿新 • • 發佈：2020-06-17

Scrapy在Twisted非同步網路庫上構建，所以如果程式必須在Twisted reactor裡執行

1、方式一：使用CrawlerProcess類

　　CrawlerProcess類(scrapy.crawler.CrawlerProcess)內部將會開啟Twisted reactor、配置log和設定Twisted reactor自動關閉。

　　可以在CrawlerProcess初始化時傳入設定的引數，使用crawl方式執行指定的爬蟲類。

　　```

　　if __name__=="__main__":

　　　　process = CrawlerProcess(

　　　　　　{

　　　　　　　　"USER_AGENT":"Mozilla/5.0 ...."，

　　　　　　}

　　　　)

　　　　process.crawl(爬蟲類）

　　　　process.start()

　　```

　　也可以在CrawlerProcess初始化時傳入專案的settings資訊，在crawl方法中傳入爬蟲的名字。

　　```

　　if __name__=="__main__":

　　　　process = CrawlerProcess(

　　　　　　project_settings()

　　　　)

　　　　process.crawl(爬蟲名）

　　　　process.start()

　　```

2、方式二：使用CrawlerRunner

　　使用CrawlerRunner時，在spider執行結束後，必須自行關閉Twisted reactor，需要在CrawlerRunner.crawl所返回的物件中添加回調函式。

　　```

　　if __name__=="__main__":

　　　　configure_logging({"LOG_FORMAT":"%(levelname)s:%(message)s"})　　# 使用configure_logging配置了日誌資訊的列印格式

　　　　runner = CrawlerRunner()

　　　　d = runner.crawl(爬蟲類）　　# 通過CrawlerRunner的crawl方法新增爬蟲

　　　　d.addBoth(lambda _:reactor.stop())　　# 通過addBoth新增關閉Twisted reactor的回撥函式

　　　　reactor.run()

　　```

3、在一個程序中啟動多個爬蟲

　　1、CrawlerProcess方式實現

　　　　```

　　　　import scrapy

　　　　from scrapy.crawler import CrawlerProcess

　　　　class Myspider_1(scrapy.Spider):

　　　　　　...

　　　　class Myspider_2(scrapy.Spider):

　　　　　　...

　　　　process = CrawlerProcess()

　　　　process.crawl(Myspider_1)

　　　　process.crawl(Myspider_2)

　　　　process.start()

　　　　```

　　2、CrawlerRunner方式實現

　　　　1、第一種方式

　　　　　　```

　　　　　　import scrapy

　　　　　　from twisted.internet import reactor

　　　　　　from scrapy.crawler import CrawlerRunner

　　　　　　from scrapy.utils.log import configure_logging

　　　　　　class Myspider_1(scrapy.Spider):

　　　　　　　　...

　　　　　　class Myspider_2(scrapy.Spider):

　　　　　　　　...

　　　　　　configure_logging()

　　　　　　runner = CralwerRunner()

　　　　　　runner.crawl(Myspider_1)

　　　　　　runner.crawl(Myspider_2)

　　　　　　d = runner.join()

　　　　　　d.addBoth(lambda _: reactor.stop())

　　　　　　reactor.run()

　　　　　　```

　　　　2、第二種方式

　　　　　　```

　　　　　　from twisted.internet import reactor,defer

　　　　　　from scrapy.crawler import CrawlerRunner

　　　　　　from scrapy.utils.log import configure_logging

　　　　　　class Myspider_1(scrapy.Spider):

　　　　　　　　...

　　　　　　class Myspider_2(scrapy.Spider):

　　　　　　　　...

　　　　　　configure_logging()

　　　　　　runner = CrawlerRunner()

　　　　　　@defer.inlineCallbacks

　　　　　　def crawl():

　　　　　　　　yield runner.crawl(Myspider_1)

　　　　　　　　yield runner.crawl(Myspider_2)

　　　　　　　　reactor.stop()

　　　　　　crawl()

　　　　　　reactor.run()

　　　　　　```

十九、通過Scrapy提供的API在程式中啟動爬蟲

Scrapy在Twisted非同步網路庫上構建，所以如果程式必須在Twisted reactor裡執行 1、方式一：使用CrawlerProcess類

二十九、python多執行緒、多程序、協程中涉及的知識點

1、GIL全域性直譯器鎖　　https://www.cnblogs.com/nuochengze/p/12664602.html 　　1、GIL是CPython直譯器的特點, 在其它直譯器中不存在

二十七、miniscrapy,scrapy原始碼初解

基本使用 from twisted.web.client import getPage, defer from twisted.internet import reactor # 基本使用

第十九章通過專案學django

*.根據上一章提供的專案目前我們需要完成以下功能 views:獲取請求資料 -講了url裡面的引數如何獲取models：多表操作外來鍵 1對多的關係 --講完了多對多的關係其他的操作（如執行原始的sql語句）urls:如何把url配置到

十九、MySQL中DISTINCT與GROUP BY計數原理分析

參考連結： MySQL中DISTINCT與GROUP BY計數原理分析通常，我們要統計一個欄位有幾種值有兩種方法：在語句中使用DISTINCT或者GROUP BY，配合count進行查詢。例如：

十九、Mysql的半同步複製

一、什麼是半同步複製半同步複製（Semisynchronous replication）介於非同步複製和全同步複製之間，主庫在執行完客戶端提交的事務後不是立刻返回給客戶端，而是等待至少一個從庫接收到並寫到relay log中才返回給

十九、泛型的使用

1、泛型引入背景 Java集合不會知道它們需要用它來儲存什麼型別的物件，所以他們把集合設計成能儲存任何型別的物件，只要求具有很好的通用性。就是因為集合對元素型別沒有任何限制，這樣回引發下列的問題：例如想建立

十九、300份Java零基礎教學筆記，真正的從零開始（關注持續更新）

技術標籤：Java初級教程程式語言javapythonc++jvm java快速入門（本文篇幅較長，建議點喜歡後收藏後閱讀）每天學會一個知識點，覺得不錯的可以留言關注下，戳：https://shimo.im/docs/i7o2oKkDuiA319g3/ 《Jav

十九、static關鍵字

1.1、概述 static是靜態修飾符，一般修飾成員。static修飾的成員被多個物件共享，所以會影響每一個物件。被static修飾的成員又叫類成員，不叫物件的成員。

三十九、排序與查詢

1、氣泡排序 1.1 概述氣泡排序：將一組資料按照升序規則進行排列氣泡排序原理：相鄰的資料兩兩比較，小的放前面，大的放後面

十九、JavaScript繼承

繼承的概念：讓一個物件可以訪問到另一個物件中的屬性和方法一、建構函式繼承

二十九、關於Jmeter的安裝

一、首先安裝Jmeter 1、安裝java Jmeter是使用java實現的測試工具，在安裝Jmeter之前我們需要安裝java。

四十九、python 進階裝飾器

裝飾器總結什麼是裝飾器？處理函式的函式，加一個功能，但是不影響原來函式的內部結構

四十九、MySQL資料庫尾聲

今日內容概要今日內容基本都是瞭解知識點，你在工作中基本用不到檢視觸發器

vue學習筆記十九、例項完整程式碼

基礎知識講了不少，今天把之前所學的所有內容整合起來實現一個例子完善 vue學習筆記九、父子元件例項-基本結構中的功能，仔細看程式碼會有不小的收穫。

十九、動畫-補間動畫

一、補間動畫 1. alpha 透明度 2. rotate 旋轉 3. scale 縮放 4. translate 平移

二十九、Activity

一、Activity 可以理解成為將一個手機app的畫面看成一個卡片，Activity就是這個卡片

（八十九）c#Winform自定義控制元件-自定義滾動條（treeview、panel、datagridview、listbox、listview、textbox）

官網 http://www.hzhcontrols.com/ 前提入行已經7,8年了，一直想做一套漂亮點的自定義控制元件，於是就有了本系列文章。

第十九節：SQLServer通過釋出訂閱實現主從同步(讀寫分離)詳解

一.前言 1. 背景　　大部分場景中，DB操作80%是讀，20%是寫，對於時效性要求不高的資料，為了減少磁碟讀和寫的競爭，引入讀寫分離的概念，即在資料庫上進行主從配置，一個主，多個從，實現主從同步，從而業務上實現

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

十九、通過Scrapy提供的API在程式中啟動爬蟲

1、方式一：使用CrawlerProcess類

2、方式二：使用CrawlerRunner

3、在一個程序中啟動多個爬蟲

1、CrawlerProcess方式實現

2、CrawlerRunner方式實現

相關推薦

　　1、CrawlerProcess方式實現

　　2、CrawlerRunner方式實現