爬蟲5-Scrapy爬蟲架構

阿新 • • 發佈：2020-12-23

簡介

Scrapy是爬取網站，提取結構性資料並存儲的應用框架。對爬取過程中的請求、返回、解析、儲存、排程等流程提供模組化支援。

items模組——定義需要爬取的資料欄位

儲存爬取到的資料的容器，python的字典型別。根據網站資料對item進行定義欄位。

# items示例
import scrapy
class DangDangItem(scrapy.Item):
    _id = scrapy.Field()
    title = scrapy.Field()
    chubanshe = scrapy.Field()

pipelines模組——連線資料庫、儲存

# pipelines示例：通過__init__初始化連線mongodb，需要連線的庫名、表名、主機地址、埠號在setting.py模組定義完畢；在process_item方法通過isinstance函式判斷item資料型別，若傳入與item一致則存入資料庫表 

import pymongo
from scrapy.conf import settings
from .items import DangdangItem

class DangdangPipeline(object):
    def __init__(self):
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        db_name = settings['MONGODB_DBNAME']
        client = pymongo.MongoClient(host=host,port=port)
        tdb  
= client[db_name]
        self.post = tdb[settings['MONGODB_DOCNAME']]

    def process_item(self, item, spider):
        if isinstance(item,DangdangItem):
            try:
                book_info = dict(item)
                if self.post.insert(book_info):
            except Exception:
                 
pass
        return item

settings模組——定製Scrapy元件的方法

可以控制核心core、外掛extension、pipeline及spyder元件，實現對排程、請求等待時間、儲存優先順序、請求佇列清理方式、資料庫連線方式的定義

# settings引數舉例
SPIDER_MODULES=['****']  #scrapy搜尋spider模組列表
DOWNLOAD_DELAY              #爬取延時等待時間
SCHEDULER                         #Scrapy的排程器配置
DUPEFILTER_CLASS              #對爬取連結去重，第二個連結不再爬取
SCHEDULER_PERSIST           #TRUE不清佇列；FALSE清佇列
SCHEDULER_QUEUE_CLASS  #爬蟲的優先順序演算法：佇列、棧、優先順序
MONGODB_DBNAME             #定義連線到的資料庫
MONGODB_DOCNAME          #定義儲存到的表名

spider模組

# spider模組中有用於爬取的檔案，命名為****.py.
# 建立爬蟲檔案，需要繼承crapy.spider，需要定義三個屬性
name         #名字要唯一，不可以為不同的spider設定相同的名字
start_urls   #含spider啟動時爬取的url列表
parse()      #spider的一個方法，用於接收請求連結返回的response資料

爬蟲5-Scrapy爬蟲架構

簡介 Scrapy是爬取網站，提取結構性資料並存儲的應用框架。對爬取過程中的請求、返回、解析、儲存、排程等流程提供模組化支援。

【爬蟲】scrapy架構，應用

目錄 1.scrapy 架構介紹 2. scrapy解析資料 2.1 使用bs4 2.2 scrapy自帶的解析（css） 2.3 scrapy自帶的解析（xpath）

python3 Scrapy爬蟲框架ip代理配置的方法

什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強

python爬蟲庫scrapy簡單使用例項詳解

最近因為專案需求，需要寫個爬蟲爬取一些題庫。在這之前爬蟲我都是用node或者php寫的。一直聽說python寫爬蟲有一手，便入手了python的爬蟲框架scrapy.

scrapy爬蟲:scrapy.FormRequest中formdata引數詳解

1. 背景在網頁爬取的時候，有時候會使用scrapy.FormRequest向目標網站提交資料（表單提交）。參照scrapy官方文件的標準寫法是：

Scrapyd 在centos下線上部署Scrapy爬蟲

什麼是scrapyd scrapyed = scrapy + deploying 把scrapy程式釋出到線上的一套python服務步驟

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

16.Python網路爬蟲之Scrapy框架（CrawlSpider）引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

<scrapy爬蟲>Spiders的用法

1、能夠建立scrapy專案、編寫個簡單的蜘蛛並執行蜘蛛；2、能夠簡單的使用scrapy shell 除錯資料；3、能夠使用scrapy css選擇器提取簡單資料；4、除了能夠提取一頁資料，還要能提取下一頁、在下一頁。

接著上一篇，既然環境搭建好了，那我們就開始落盤爬蟲===第一個scrapy爬蟲

1.爬蟲專案廠建立成功後大致的目錄結構如下: commands：大家可以暫時不給予考慮，這是在一個scrapy框架中啟動多個爬蟲的解決方案，大家有需要請關注本部落格的動態

詳解Python的爬蟲框架 Scrapy

網路爬蟲，是在網上進行資料抓取的程式，使用它能夠抓取特定網頁的HTML資料。雖然我們利用一些庫開發一個爬蟲程式，但是使用框架可以大大提高效率，縮短開發時間。Scrapy是一個使用Python編寫的，輕量級的，簡單輕巧

scrapy爬蟲專案(1)：scrapy基本使用

之前在寫爬蟲時，都是自己寫整個爬取過程，例如向目標網站發起請求、解析網站、提取資料、下載資料等，需要自己定義這些實現方法等

Python 爬蟲之Scrapy《上》

歡迎關注【無量測試之道】公眾號，回覆【領取資源】,Python程式設計學習資源乾貨、Python+Appium框架APP的UI自動化、Python+Selenium框架Web的UI自動化、Python+Unittest框架API自動化、

Python 爬蟲之Scrapy《中》

歡迎關注【無量測試之道】公眾號，回覆【領取資源】,Python程式設計學習資源乾貨、Python+Appium框架APP的UI自動化、Python+Selenium框架Web的UI自動化、Python+Unittest框架API自動化、

Python 爬蟲之Scrapy《下》

歡迎關注【無量測試之道】公眾號，回覆【領取資源】,Python程式設計學習資源乾貨、Python+Appium框架APP的UI自動化、Python+Selenium框架Web的UI自動化、Python+Unittest框架API自動化、

Python爬蟲之Scrapy學習

為什麼要用爬蟲框架？如果你對爬蟲的基礎知識有了一定了解的話，那麼是時候該瞭解一下爬蟲框架了。那麼為什麼要使用爬蟲框架？

Scrapy爬蟲檔案批量執行的實現

Scrapy批量執行爬蟲檔案的兩種方法： 1、使用CrawProcess實現 https://doc.scrapy.org/en/latest/topics/practices.html

Scrapy爬蟲(五)：有限爬取深度例項

Scrapy爬蟲(五)：有限爬取深度例項 Scrapy爬蟲五有限爬取深度例項豆瓣樂評分析

Scrapy爬蟲(四)：imdb.cn爬蟲例項

Scrapy爬蟲(四)：imdb.cn爬蟲例項 Scrapy爬蟲四imdbcn爬蟲例項 imdbcn網站結構分析建立爬蟲專案

Scrapy爬蟲(七)：爬蟲資料儲存例項

Scrapy爬蟲(七)：爬蟲資料儲存例項 Scrapy爬蟲七爬蟲資料儲存例項資料儲存配置mysql服務