scrapy 的一個例子

阿新 • • 發佈：2017-08-10

extra 邏輯進入 spi lines rec 使用步驟 middle over

1、目標：

　　scrapy 是一個爬蟲構架，現用一個簡單的例子來講解，scrapy 的使用步驟

2、創建一個scrapy的項目：

　　創建一個叫firstSpider的項目，命令如下：

scrapy startproject firstSpider

[[email protected] ~]$ scrapy startproject firstSpider 
New Scrapy project ‘firstSpider‘, using template directory ‘/usr/local/python-3.6.2/lib/python3.6/site-packages/scrapy/templates/project 
‘, created in:
    /home/jianglexing/firstSpider

You can start your first spider with:
    cd firstSpider
    scrapy genspider example example.com

3、創建一個項目時scrapy 命令幹了一些什麽：

　　創建一個項目時scrapy 會創建一個目錄，並向目錄中增加若幹文件

[[email protected] ~]$ tree firstSpider/
firstSpider/
├── firstSpider
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── __pycache__
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── __pycache__
└── scrapy.cfg

 
4 directories, 7 files

4、進入項目所在的目錄並創建爬蟲：

[[email protected] ~]$ cd firstSpider/
[[email protected] firstSpider]$ scrapy genspider financeSpider www.financedatas.com
Created spider ‘financeSpider‘ using template ‘basic‘ in module:
  firstSpider.spiders.financeSpider

5、一只爬蟲在scrapy 項目中對應一個文件：

[[email protected] firstSpider]$ tree ./
./
├── firstSpider
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── __pycache__
│   │   ├── __init__.cpython-36.pyc
│   │   └── settings.cpython-36.pyc
│   ├── settings.py
│   └── spiders
│       ├── financeSpider.py    # 這個就是剛才創建的爬蟲文件
│       ├── __init__.py
│       └── __pycache__
│           └── __init__.cpython-36.pyc
└── scrapy.cfg

6、編寫爬蟲的處理邏輯：

　　以爬取 http://www.financedatas.com 網站首頁的title為例

# -*- coding: utf-8 -*-
import scrapy


class FinancespiderSpider(scrapy.Spider):
    name = ‘financeSpider‘
    allowed_domains = [‘www.financedatas.com‘]
    start_urls = [‘http://www.financedatas.com/‘]

    def parse(self, response):
        """在parse方法中編寫處理邏輯"""
        print(‘*‘*64)
        title=response.xpath(‘//title/text()‘).extract() #xpath 語法抽取數據
        print(title)
        print(‘*‘*64)

7、運行爬蟲，查看效果：

[[email protected] spiders]$ scrapy crawl financeSpider
2017-08-10 16:11:38 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: firstSpider)
2017-08-10 16:11:38 [scrapy.utils.log] INFO: Overridden settings: {‘BOT_NAME‘: ‘firstSpider‘, ‘NEWSPIDER_MODULE‘: ‘firstSpider.spiders‘, ‘ROBOTSTXT_OBEY‘: True, ‘SPIDER_MODULES‘: [‘firstSpider.spiders‘]}
.... ....
2017-08-10 16:11:39 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.financedatas.com/robots.txt> (referer: None)
2017-08-10 16:11:39 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.financedatas.com/> (referer: None)
****************************************************************
[‘歡迎來到 www.financedatas.com‘]   # 這裏就抽取到的數據
****************************************************************2017-08-10 16:11:39 [scrapy.core.engine] INFO: Spider closed (finished)

----

scrapy 的一個例子

extra 邏輯進入 spi lines rec 使用步驟 middle over 1、目標：　　scrapy 是一個爬蟲構架，現用一個簡單的例子來講解，scrapy 的使用步驟 2、創建一個scrapy的項目：　　創建一個叫firstSpider的項目，命令如

用一個例子讀懂 RequireJS

[0 src navigator resume www attribute base alert var 用一個例子讀懂 RequireJS 例子來自官方，我稍微改造了一下，如下： // project.html &

一個例子理解break和continue的區別

print 循環 str string out void i++ continue sys 結論：break用於終止整個循環，而continue用於終止某一次循環。public class Test { 　　public static void main(String[]

一個例子加深對servlet與tcp協議的理解

puts 一個 .com images 發送信息 mage 交流 tcp協議 host 理解一下servlet Java Servlet 是運行在 Web 服務器或應用服務器上的程序，它是作為來自 Web 瀏覽器或其他 HTTP 客戶端的請求和 HTTP 服務器上的數據庫或

react學習(二)試寫一個例子

生產環境 cti doc nbsp font register conf function htm 一、render方法參考https://itbilu.com/javascript/react/EJiqU81te.html React的組件最終通過render方法渲染到

LoadRunner例子：檢查點為參數的一個例子

out ssi end cti common 登陸 diff source star LoadRunner例子：檢查點為參數的一個例子檢查點是LoadRunner的一個功能，用來驗證業務功能的正確性。如果檢查的內容是變化的，腳本該如何寫呢？問題

MySQL inner join判斷驅動表和被驅動表的一個例子

span tab blog limit es2017 技術 spa employees rst 下述SQL中，驅動表是S表，因為S表有過濾條件 s.emp_no in (10001,10002)。 select s.emp_no ,count(distinc

[PY3]——一個例子理解多線程和daemon

div height 對話 block true nbsp for 守護進程 art 理解（今天糾結已久，多謝junqi大大幫助理解，一語總結便解心頭疑惑）（下面幾點總結基本就是我們的對話） 1. 進程就相當於一個機器，多進程就相當於有多個機器在同時運行，多線程是

關於註解繼承性的一個例子

span 收藏 UC string OS san blog throws java （轉載自： http://wzhw2008.iteye.com/blog/1723136）子類可以繼承到父類上的註解嗎？ ---------------------------------

關於類、方法、對象(實例)：通過一個例子看一下self都做了哪些事情

就會就是 style 寫代碼 obj 這一 charm self 將不我們在定義一個類時，經常會在類的各個方法中看到self，那麽在程序執行時self到底起了什麽作用，什麽時候要加self，這一點需要我們思考並好好理解。之前在學習時沒有想這麽多，加之用p

java中什麽是Yield給出一個例子

process ron rac 占用 itl its 繼續並行 code 馬克-to-win：yield英文是屈服投降的意思。（視頻下載）（全部書籍）當前線程投降就是當前線程希望釋放CPU的自己的占用權，（但系統可以忽略它這個請求。）參見： https://docs

java中線程優先級是怎麽回事給出一個例子

oss art interrupt blank static rst 有關書籍 com j6.線程優先級（視頻下載）（全部書籍） java中線程的優先級用1-10之間的數字表示，數值越大優先級越高，默認的優先級為5。Java中的線程優先級是在Thread類中定義的常量

java中什麽是線程安全給出一個例子

who pub begin ati () pan 大白執行這就是 8.線程安全什麽是線程安全? 馬克-to-win：（視頻下載）（全部書籍）最大的大白話，你的代碼一個線程執行挺好，一上多線程測試就玩兒完（結果不是你所想要的），這就是線程不安全。反之為線程安全。首

java中什麽是線程不安全給出一個例子

class spa except one ref exceptio lan sleep print 下面我們再給出一個線程不安全的例子。（視頻下載）（全部書籍）例：1.8.2-本章源碼class BookMark_to_win { int bookNum=10;

從一個例子開始認識Kubernetes

ber aml pull 自動字段 replicat pre 文章 start 　　對於絕大多數剛剛接觸Kubernetes的人來說，很難順利的上手和實踐。所以我們從一個例子開始初步的對Kubernetes有一個了解：JSP頁面通過JDBC直接訪問MySQL數據庫並展示數

46.一個例子瞭解C++中異常處理

異常處理的棧展開、解構函式和建構函式的異常，異常處理的層次 catch的搜尋匹配。。。 class wrong :public exception { public: wrong(const int& i = 0,const string& str = ""):err

mysql中case的一個例子

最近遇到一個問題： year amount num 1991 1 1.1 1991 2 1.2 1991 3 1.3 1

QT自定義事件的一個例子

QT自定義事件的一個例子在QT中事件分為系統事件和自定義事件，可以看到QT跟MFC的訊息很相似，MFC中訊息也分為系統訊息和使用者自定的訊息，下面來說明一下QT中自定義事件的實現方法。 1>自定義一個從QEvent派生的的類如，TestEvent，實現如下： test

scrapy 一個專案裡同時執行多個爬蟲

在spiders檔案同級建立一個commands資料夾，建立一個py檔案，我自定義為crawlall.py。 from scrapy.commands import ScrapyCommand class Command(ScrapyCommand): requires_pro

ElasticSearch最佳入門實踐（三十七）用一個例子告訴你 mapping 到底是什麼

1、插入幾條資料 PUT /website/article/1 { "post_date": "2017-01-01", "title": "my first article", "content": "this is my first article in this w

scrapy 的一個例子

相關推薦