python爬蟲-初識scrapy框架

阿新 • • 發佈：2022-03-22

什麼是scrapy框架

介紹

Scrapy是適用於Python的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。
Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。
Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。
它也提供了多種型別爬蟲的基類，如BaseSpider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支援。

基本功能

Scrapy是一個適用爬取網站資料、提取結構性資料的應用程式框架，它可以應用在廣泛領域：Scrapy 常應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。
通常我們可以很簡單的通過 Scrapy 框架實現一個爬蟲，抓取指定網站的內容或圖片。
儘管Scrapy原本是設計用來螢幕抓取（更精確的說，是網路抓取），但它也可以用來訪問API來提取資料。

scrapy環境安裝

這裡建議使用conda建立獨立的環境或者是在pycharm中來安裝scrapy

pip install scrapy

scrapy基本使用

1. 建立工程

cd xxx  # 進入到專案指定目錄

scrapy startproject study_scrapy01  # 建立一個名為study_scrapy01的工程

顯示建立成功

New Scrapy project 'study_scrapy01', using template directory '/Users/soutsukyou/opt/anaconda3/lib/python3.8/site-packages/scrapy/templates/project', created in:
    /Users/soutsukyou/PyCharm_Workspace/網路爬蟲/study_scrapy/study_scrapy01

You can start your first spider with:
    cd study_scrapy01
    scrapy genspider example example.com

專案結構

2. 在spiders子目錄下建立一個爬蟲檔案

cd study_scrapy01  # 進入你建立的專案
scrapy genspider spider_01 www.baidu.com  # 生成一個爬蟲檔案 名為：spider_01 網址為：www.baidu.com

返回結果，這是你會發現你的spiders目錄下多了一個 spide_01.py 的檔案

Created spider 'spider_01' using template 'basic' in module:
  study_scrapy01.spiders.spider_01

3. 編寫爬蟲檔案

新建立的spide_01.py檔案還沒有任何爬取方法，我們需要詳細它。

import scrapy


class Spider01Spider(scrapy.Spider):
    # 爬蟲檔案的名稱
    name = 'spider_01'
    # 允許的域名，該列表用來限定start_urls列表中的url那些可以請求傳送
    # 一般不會讓這個裡面有值，或者不使用它
    # 假如要爬取一個網站中圖片，那麼這個網站的圖片不一定是在這個網站的域名之下
    allowed_domains = ['www.baidu.com']
    # 起始的url列表，該列表中的url會被scrapy自動的進行請求傳送
    start_urls = ['http://www.baidu.com/']

    # 用於資料解析，response就是請求成功後的響應物件
    def parse(self, response):
        print(response)

4. 修改settings.py配置檔案

君子協議，這個君子不當也罷（歪嘴）

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# 僅輸出錯誤日誌
LOG_LEVEL = 'ERROR'

5. 執行工程檔案

scrapy crawl spider_01

python爬蟲-初識scrapy框架

什麼是scrapy框架介紹 Scrapy是適用於Python的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

Python爬蟲之Scrapy框架

Scrapy的命令 Scrapy框架常用命令 1、建立專案： scrapy startproject <專案名字> 2、建立爬蟲：

Python爬蟲之scrapy框架基礎理解

目錄1 scrapy1.1 簡介1.1.1 scrapy原理1.2 環境安裝1.3 使用scrapy1.3.1 使用步驟1.4 持久化儲存1.4.1 基於終端指令1.4.2 基於管道1.4.2.1 基於管道步驟1.4.2.2 基於管道操作1.4.3 多渠道儲存1.5 全站資料爬取

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

16.Python網路爬蟲之Scrapy框架（CrawlSpider）引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？

python爬蟲庫scrapy簡單使用例項詳解

最近因為專案需求，需要寫個爬蟲爬取一些題庫。在這之前爬蟲我都是用node或者php寫的。一直聽說python寫爬蟲有一手，便入手了python的爬蟲框架scrapy.

Python 爬蟲之Scrapy《上》

歡迎關注【無量測試之道】公眾號，回覆【領取資源】,Python程式設計學習資源乾貨、Python+Appium框架APP的UI自動化、Python+Selenium框架Web的UI自動化、Python+Unittest框架API自動化、

Python 爬蟲之Scrapy《中》

Python 爬蟲之Scrapy《下》

Python爬蟲之Scrapy學習

為什麼要用爬蟲框架？如果你對爬蟲的基礎知識有了一定了解的話，那麼是時候該瞭解一下爬蟲框架了。那麼為什麼要使用爬蟲框架？

python爬蟲與Django框架vue互動的前後端程式碼詳情（勵志人生網例項）

Django(建表，配置一些的就不說了): class Jiayou(models.Model):# 建表以及欄位名zxn_title = models.CharField(max_length=500)zxn_brief = models.CharField(max_length=500)zxn_date = models.CharField(max_len

python爬蟲用scrapy獲取影片的例項分析

我們平時生活的娛樂中，看電影是大部分小夥伴都喜歡的事情。周圍的人總會有意無意的在談論，有什麼影片上映，好不好看之類的話題，沒事的時候談論電影是非常不錯的話題。那麼，一些好看的影片如果不去電影院的話，在

python爬蟲使用scrapy注意事項

在學習中，如果遇到問題把它們都收集整理出來，長期儲存之後也是一份經驗之談。小編跟大家講了這麼久的scrapy框架，在自己學習的整理和小夥伴們的交流反饋中也累積了不少心得。想著有些小夥伴在python學習的時候有點

Python爬蟲----建立Scrapy工程

技術標籤：大資料資料探勘 **[加粗樣式] 建立Scrapy工程這篇文章我們通過一個比較完整的例子來教你使用Scrapy，我選擇爬取虎嗅網首頁的新聞列表。

初識scrapy框架

技術標籤：pythonmongodb爬蟲本文適用於初學者可以體會一下scrapy框架的強大前言一、scrapy框架是什麼？二、步驟1.建立專案2.生成爬蟲檔案3.進入items檔案4.進入爬蟲檔案Douban5.進入settings檔案6.進入pi

Python爬蟲之PySpider框架

概述 pyspider 是一個支援任務監控、專案管理、多種資料庫，具有 WebUI 的爬蟲框架，它採用 Python 語言編寫，分散式架構。詳細特性如下：

爬蟲終 scrapy框架2 全站爬取cnblogs, scarpy請求傳參, 提高爬取效率, 爬蟲中介軟體下載中介軟體, 整合selenium, fake-useragent, 去重原始碼分析, 布隆過濾器, 分散式爬蟲, java等語言概念補充, bilibili爬視訊參考

1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com

python爬蟲-初識scrapy框架

什麼是scrapy框架

介紹

基本功能

scrapy環境安裝

scrapy基本使用

1. 建立工程

2. 在spiders子目錄下建立一個爬蟲檔案

3. 編寫爬蟲檔案

4. 修改settings.py配置檔案

5. 執行工程檔案

python爬蟲-初識scrapy框架

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

Python爬蟲之Scrapy框架

Python爬蟲之scrapy框架基礎理解

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

python爬蟲庫scrapy簡單使用例項詳解

Python 爬蟲之Scrapy《上》

Python 爬蟲之Scrapy《中》

Python 爬蟲之Scrapy《下》

Python爬蟲之Scrapy學習

python爬蟲與Django框架vue互動的前後端程式碼詳情（勵志人生網例項）

python爬蟲用scrapy獲取影片的例項分析

python爬蟲使用scrapy注意事項

Python爬蟲----建立Scrapy工程

初識scrapy框架

Python爬蟲之PySpider框架

爬蟲終 scrapy框架2 全站爬取cnblogs, scarpy請求傳參, 提高爬取效率, 爬蟲中介軟體下載中介軟體, 整合selenium, fake-useragent, 去重原始碼分析, 布隆過濾器, 分散式爬蟲, java等語言概念補充, bilibili爬視訊參考

Python爬蟲之scrapy高階(全站爬取,分散式,增量爬蟲)

Python爬蟲之scrapy高階(傳參,圖片,中介軟體)

爬蟲之scrapy框架操作和持久化方案

python爬蟲-初識scrapy框架

什麼是scrapy框架

介紹

基本功能

scrapy環境安裝

scrapy基本使用

1. 建立工程

2. 在spiders子目錄下建立一個爬蟲檔案

3. 編寫爬蟲檔案

4. 修改settings.py配置檔案

5. 執行工程檔案

相關推薦