【Python3 爬蟲學習筆記】Scrapy框架的使用 1

阿新 • • 發佈：2018-12-17

Scrapy功能非常強大，爬取效率高，相關擴充套件元件多，可配置和可擴充套件程度非常高，它幾乎可以應對所有發爬網站，是目前Python中使用最廣泛的爬蟲框架。

Scrapy框架介紹

Scrapy是一個基於Twisted的非同步處理框架，是純Python實現的爬蟲框架，其架構清晰，模組之間的耦合程度低，可擴充套件性極強，可以靈活完成各種需求。我們只需要定製開發幾個模組就可以輕鬆實現一個爬蟲。在這裡插入圖片描述

架構介紹

它可以分為如下幾個部分：

Engine。引擎，處理整個系統的資料流處理、觸發事務，是整個框架的核心。
Item。專案，它定義了爬取結果的資料結構，爬取的資料會被賦值成該Item物件。
Scheduler。排程器，接受引擎發過來的請求並將其加入佇列中，在引擎再次請求的時候將請求提供給引擎。

Downloader。下載器，下載網頁內容，並將網頁內容返回給蜘蛛。
Spiders。蜘蛛，其內定義了爬取的邏輯和網頁的解析規則，它主要負責解析響應並生成提取結果和新的請求。
Item Pipeline。專案管道，負責處理由蜘蛛從網頁中抽取的專案，它的主要任務是清洗、驗證和儲存資料。
Downloader Middlewares。下載器中介軟體，位於引擎和下載器之間的鉤子框架，主要處理引擎和下載器之間的請求及響應。
Spider Middlewares。蜘蛛中介軟體，位於引擎和蜘蛛之間的鉤子框架，主要處理蜘蛛輸入的響應和輸出的結果及新的請求。

資料流

Scrapy中的資料流由引擎控制，資料流的過程如下。

Engine首先開啟一個網站，找到該處理網站的Spider，並向該Spider請求第一個爬取的URL。
Engine從Spider中獲取到第一個要爬取的URL，並通過Scheduler以Request的形式排程。
Engine想Scheduler請求下一個要爬取的URL。
Scheduler返回下一個要爬取的URL給Engine，Engine將URL通過Downloader Middlewares轉發給Downloader下載。
一旦頁面下載完畢，Downloader生成該頁面的Response，並將其通過Downloader Middlewares傳送給Engine。
Engine從下載器中接收到Response，並將其通過Spider Middlewares傳送給Spider處理。

Engine處理Response，並返回爬取到的Item及新的Request給Engine。
Engine將Spider返回的Item給Item Pipeline，將新的Request給Scheduler。
重複第2步到第8步，知道Scheduler中沒有更多的Request，Engine關閉該網站，爬取結束。

通過多個元件的相互寫作、不同元件完成工作的不同、元件對非同步處理的支援，Scrapy最大限度地利用了網路頻寬，大大提高了資料爬取和處理的效率。

【Python3 爬蟲學習筆記】Scrapy框架的使用 1

Scrapy功能非常強大，爬取效率高，相關擴充套件元件多，可配置和可擴充套件程度非常高，它幾乎可以應對所有發爬網站，是目前Python中使用最廣泛的爬蟲框架。 Scrapy框架介紹 Scrapy是一個基於Twisted的非同步處理框架，是純Python實現的爬蟲

【Python3 爬蟲學習筆記】pyspider框架的使用 3

啟動爬蟲返回爬蟲的主頁面，將爬蟲的status設定成DEBUG或RUNNING，點選右側的Run按鈕即可開始爬取。在最左側我們可以定義專案的分組，以方便管理。rate/burst代表當前的爬取速率，rate代表1秒發出多少個請求，burst相當於流量控制中

【Python3 爬蟲學習筆記】pyspider框架的使用 4

pyspider用法詳解命令列前面例項通過如下命令啟動pyspider： pyspider all 命令列還有很多可配置引數，完整的命令列結構如下所示： pyspider [OPTIONS] COMMAND [ARGS] 其中，OPTIONS為可選引數，

【Python3 爬蟲學習筆記】資料儲存 1 -- TXT文字儲存

資料儲存的形式可以多種多樣，最簡單的形式是直接儲存為文字檔案，如TXT、JSON、CSV等。另外，還可以儲存到資料庫中，如關係型資料庫MySQL，非關係型資料庫MongoDB、Redis等。檔案儲存文字儲存形式多種多樣，比如可以儲存成TXT純文字形式，也可以儲存為JSON格式、C

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是逗號或製表符。不過所有記錄都有

【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1

三、正則表示式 1.例項引入開啟開源中國提供的正則表示式測試工具 http://tool.oschina.net/regex/ ，輸入待匹配的文字，然後選擇常用的正則表示式，就可以得出相應的匹配結果。對於URL來說，可以用下面的正則表示式匹配： [a-zA-z]+://[^\

【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests

抓取二進位制資料前面我們抓取知乎的一個頁面，實際上它返回的是一個HTML文件。如何抓取圖片、音訊、視訊？圖片、音訊、視訊這些檔案本質上都是由二進位制碼組成的，由於有特定的儲存格式和對應的解析方式，我們才可以看到這些形形色色的多媒體，所以要抓取它們，就要拿到它們的二進位制碼。抓取

【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5

6. compile() compile()方法可以將正則字串編譯成正則表示式物件，以便在後面的匹配中複用。示例程式碼如下： import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3

【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4

4. findall() search()方法可以返回匹配正則表示式的第一個內容，但是如果想要獲取匹配正則表示式的所有內容，就要藉助findall()方法了。該方法會搜尋整個字串，然後返回匹配正則表示式的所有內容。上一節中的HTML文字中，如果想要獲得所有a節點的超連結、歌手和歌名，就

【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3

3.search() mathch()方法是從字串的開頭開始匹配的，一旦開頭不匹配，那麼整個匹配就失敗了。因為match()方法在使用時需要考慮到開頭的內容，這在匹配時並不方便。它更適合用來檢測某個字串是否符合某個正則表示式的規則。 search()方法在匹配時會掃描整個字串，然後返回第

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

【Python3 爬蟲學習筆記】解析庫的使用 3 —— Beautiful Soup 1

Beautiful Soup可以藉助網頁的結構和屬性等特性來解析網頁。有了Beautiful Soup，我們不用再去寫一些複雜的正則表示式，只需要簡單的幾條語句，就可以完成網頁中某個元素的提取。 Beautiful Soup是Python的一個HTML或XML的解析庫，可以用它來方便地從

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

8. 文字獲取我們使用XPath中的text()方法獲取節點中文字，接下來嘗試獲取前面li節點中的文字，相關程式碼如下： from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re

【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的於洋。它最初是用來搜尋XML文件的，但它同樣適用於HTML文件的搜尋。 1. XPath概覽 XPath的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式。另外，它還提供了超過

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

CSS選擇器 Beautiful Soup還提供了另外一個選擇器，那就是CSS選擇器。使用CSS選擇器時，只需要呼叫select()方法，傳入相應的CSS選擇器即可，示例如下： html = ''' <div class="panel"> <div class="

【Python3 爬蟲學習筆記】解析庫的使用 5 —— Beautiful Soup 3

提取資訊要獲取關聯元素節點的資訊，比如文字、屬性等，如下： html = """ <html> <body> <p class="story"> Once upon a time there were three little sisters

【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2

父節點和祖先節點如果要獲取某個節點元素的父節點，可以呼叫parent屬性： html = """ <html> <head> <title>The Dormouse's story</title> </head> <

【Python3 爬蟲學習筆記】解析庫的使用 10 —— 使用pyquery 3

節點操作 pyquery提供了一系列方法來對節點進行動態修改，比如為某個節點新增一個class，移除某個節點等，這些操作有時候會為提取資訊帶來極大地便利。 addClass和removeClass html = ''' <div class="wrap"> <d

【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2

遍歷 pyquery的選擇結果可能是多個節點，也可能是單個節點，型別都是PyQuery型別，並沒有返回像Beautiful Soup那樣的列表。對於單個節點來說，可以直接列印輸出，也可以直接轉成字串： from pyquery import PyQuery as pq doc =

【Python3 爬蟲學習筆記】Scrapy框架的使用 1

Scrapy框架介紹

架構介紹

資料流

相關推薦