Scrapy官方文件筆記

阿新 • • 發佈：2018-12-13

1.建立Scrapy專案

首先用cmd命令列去操作，輸入

scrapy startproject 專案名

#這裡輸入的專案名，就是在你輸入的目錄它會建立一個新的資料夾，這個資料夾裡面還是同樣名字的一個資料夾，專案新建的時候其實裡面只有一個，後來的.idea是被pycharm開啟之後pycharm生成的。

那這一步其實也就是決定了資料夾名字，以及在命令欄中決定根目錄。

2.然後用pycharm開啟這個專案，從根目錄開啟，在spiders裡面新建一個python檔案，從這裡開始。

import scrapy
class mingyan(scrapy.Spider):  # 需要繼承scrapy.Spider類，類名隨意後面不用
    name = "Scrapy_test"  # 定義蜘蛛名，這個重要，根據這個啟動的，在這裡面寫清楚用來爬什麼的

    def start_requests(self):  # 由此方法通過下面連結爬取頁面
        # 定義爬取的連結
        urls = [
            'http://lab.scrapyd.cn/page/1/',
            'http://lab.scrapyd.cn/page/2/',
        ]

        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)  # 爬取到的頁面如何處理？提交給parse方法處理

    def parse(self, response):

        '''
        start_requests已經爬取到頁面，那如何提取我們想要的內容呢？那就可以在這個方法裡面定義。
        這裡的話，並木有定義，只是簡單的把頁面做了一個儲存，並沒有涉及提取我們想要的資料，後面會慢慢說到
        也就是用xpath、正則、或是css進行相應提取，這個例子就是讓你看看scrapy執行的流程：
        1、定義連結；
        2、通過連結爬取（下載）頁面；
        3、定義規則，然後提取資料；
        就是這麼個流程，似不似很簡單呀？
        '''

        page = response.url.split("/")[-2]  # 根據上面的連結提取分頁,如：/page/1/，提取到的就是：1
        filename = 'mingyan-%s.html' % page  # 拼接檔名，如果是第一頁，最終檔名便是：mingyan-1.html
        
        with open(filename, 'wb') as f:  # python檔案操作，不多說了；
            f.write(response.body)  # 剛才下載的頁面去哪裡了？response.body就代表了剛才下載的頁面！
        self.log('儲存檔案: %s' % filename)  # 打個日誌

上面這個程式解析

（1）格式化輸出那裡，%s是字串，%d是整數，首先在前面寫表示式的時候先用這個格式化代替，然後寫完了之後，在整個表示式後面%號一打，後面就跟著真正應該是的東西。

如果前面用了好多個%，那後面就是%( , , ) 用括號的形式來寫多項。

4. 執行爬蟲的辦法，就是在建立的根目錄那個檔案裡面使用命令列

scrapy crawl 爬蟲名

5. 起始url的第二種寫法，就是上面的第一個函式的替代形式

import scrapy
class mingyan(scrapy.Spider):  # 需要繼承scrapy.Spider類
    name = "Scrapy_test"  # 定義蜘蛛名

    start_urls = [  # 另外一種寫法，無需定義start_requests方法
        'http://lab.scrapyd.cn/page/1/',
        'http://lab.scrapyd.cn/page/2/',
    ]
    
   
    def parse(self, response):

        '''
        start_requests已經爬取到頁面，那如何提取我們想要的內容呢？那就可以在這個方法裡面定義。
        這裡的話，並木有定義，只是簡單的把頁面做了一個儲存，並沒有涉及提取我們想要的資料，後面會慢慢說到
        也就是用xpath、正則、或是css進行相應提取，這個例子就是讓你看看scrapy執行的流程：
        1、定義連結；
        2、通過連結爬取（下載）頁面；
        3、定義規則，然後提取資料；
        就是這麼個流程，似不似很簡單呀？
        '''
        page = response.url.split("/")[-2]  # 根據上面的連結提取分頁,如：/page/1/，提取到的就是：1
        filename = 'mingyan-%s.html' % page  # 拼接檔名，如果是第一頁，最終檔名便是：mingyan-1.html
        with open(filename, 'wb') as f:  # python檔案操作，不多說了；
            f.write(response.body)  # 剛才下載的頁面去哪裡了？response.body就代表了剛才下載的頁面！
        self.log('儲存檔案: %s' % filename)  # 打個日誌

（1）開啟檔案進行操作的時候，括號裡面要寫上開啟檔案的檔名，逗號後面是操作模式，只讀還是讀寫，a+是從文字尾部開始新增。

用with open （檔名，處理模式） as f:

可以省掉關閉檔案的操作

（2）開啟頁面的過程就是上面的兩種方法，不管是用類裡面的一個變數還是自己寫一個函式，反正那一句或者那一段完了，開啟頁面的過程也就完了，

下面的parse是處理那個頁面的過程，而且他的接受引數括號裡面也有一個response引數，上面的寫url的就是request操作，而下面的是處理頁面的response操作，response在這個例子裡面是儲存頁面的操作。

Scrapy官方文件筆記

1.建立Scrapy專案首先用cmd命令列去操作，輸入 scrapy startproject 專案名 #這裡輸入的專案名，就是在你輸入的目錄它會建立一個新的資料夾，這個資料夾裡面還是同樣名字的一個資料夾，專案新建的時候其實裡面只有一個，後來的.idea是被pycha

Spring Boot官方文件筆記--PartIV: Spring Boot特性

23. SpringApplication特性 Banner SpringApplicationBuilder Events and Listeners Web Environment ApplicationArguments：獲取SpringApplication.run(...)

Spring Boot 官方文件筆記

【轉載】原文來源：https://blog.csdn.net/luqiang81191293/article/details/54949197 Spring Boot每次釋出時都會提供一個它所支援的精選依賴列表。實際上，在構建配置裡你不需要提供任何依賴的版本，因為Spring Boot已

爬蟲筆記之BeautifulSoup模組官方文件筆記

爬蟲筆記之BeautifulSoup模組官方文件筆記文章開始把我喜歡的這句話送個大家：這個世界上還

演算法工程師修仙之路：python3官方文件筆記（三）

本筆記來自於python手冊的中文版 Python 簡介 Python 中的註釋以 # 字元起始，直至實際的行尾。註釋可以從行首開始，也可以在空白或程式碼之後，但是不出現在字串中。文字字串中的 # 字元僅僅表示 # 。程式碼中的註釋

演算法工程師修仙之路：python3官方文件筆記（二）

本筆記來自於python手冊的中文版使用 Python 直譯器呼叫 Python 直譯器通常你可以在主視窗輸入一個檔案結束符（Unix系統是Control-D，Windows系統是Control-Z）讓直譯器以 0 狀態碼退出。如果那沒有作用，你可以通過輸入

演算法工程師修仙之路：python3官方文件筆記（一）

本筆記來自於python手冊的中文版第一章開胃菜雖然 Python 易於使用，但它卻是一門完整的程式語言。與 Shell 指令碼或批處理檔案相比，它為編寫大型程式提供了更多的結構和支援。 Python 提供了比 C 更多的錯誤檢查

Profiling (移動裝置效能分析)官方文件筆記

本文件主要是對Unity官方教程的個人理解與總結（其實以翻譯記錄為主：>）僅作為個人學習使用，不得作為商業用途，歡迎轉載，並請註明出處。文章中涉及到的操作都是基於 Unity2017.3版本參考連結： https://docs.unity3d.com

Vue-router 官方文件筆記

vue-router 個人理解：Vue中的路由相當於pc裡面的錨點超連結，如果點選了頁面轉向哪，也有點像ajax。安裝 npm install vue-router 開始用Vue.js + vue-router建立單頁應用，是非常簡單

演算法工程師修仙之路：python3官方文件筆記（四）

本筆記來自於python手冊的中文版深入 Python 流程控制 if 語句可能會有零到多個 elif 部分，else 是可選的。關鍵字 ‘elif’ 是 ’else if’ 的縮寫，這個可以有效地避免過深的縮排。if … elif … elif … 序列用於

gradle學習筆記(六) 官方文件筆記+理解

前言接著學習筆記(五)，這篇文章是官方文件的筆記，和自己的一些理解。看了好幾天，終於發現一個比較能夠講清楚的邏輯： User Guide第三大章都有必要看看完User Guide直接看Gradle Build Language Reference即資料

Kafka官方文件閱讀筆記

官方文件：http://kafka.apache.org/documentation/ 簡介多租戶保證：　　同一個partition內的順序性；　　consumer能夠按序看到日誌檔案中的記錄；　　對於副本因子為N的topic，即使N-1個伺服器宕機，已經提交到日誌的記錄能夠不被丟失。

Python3.6.3官方文件閱讀筆記

Python3.6.4官方文件閱讀筆記 Python3.6.4官方文件閱讀筆記一、基本格式說明二、基礎語法以及相關操作模式 (一) 基本資料型別以及操作符

elasticsearch官方文件學習筆記----Getting Started

Getting Started 基本概念 1）準實時：ES搜尋是一個接近實時的搜尋平臺。這意味著從您索引一個文件的時間到它可搜尋的時間，有一個輕微的延遲（通常是一秒）。 2）叢集：ES是一個叢集，一個叢集由一個惟一的名稱標識id，預設情況下是“elasticsearch

elasticsearch官方文件學習筆記----ElasticSearch引數配置

配置ElasticSearch 主要介紹了ES啟動前重要的基本配置重要的系統基本配置設定JVM引數此檔案的預設位置是config/jvm.options（從tar或zip發行版/etc/elasticsearch/jvm.options安裝時）和（從Debi

AKKA官方文件閱讀筆記（1）JAVA版2.5.16

準備工作： Actor層級結構其實在你用程式碼建立Actor之前，Akka自己就已經建立三個actor了，它們都是負責監管自己下面的actor的： / 這個就是傳說中的跟監管者，是所有actor的祖先，當系統終止時，它一定是最後一個被停止的 /user

Flume.apache.org 官方文件學習筆記 part one

Apache Flume 是一個分散式，可靠且可用的系統，用於有效地從許多不同的源收集，聚合和移動大量日誌資料到集中式資料儲存。 Apache Flume的使用不僅限於日誌資料聚合。由於資料來源是可定製的，因此Flume可用於傳輸大量事件資料，包括但不限於網路流量資料

Flume.apache.org 官方文件學習筆記 part two

配置個體元件：當你定義了這個流之後，你需要去設定每個資源、接收器、通道的屬性。這是在你設定元件型別和每個元件的特定屬性值的同一層名稱空間內完成的。 # properties for sources <Agent>.sources.<S

LogStash官方文件6.x學習筆記---------day1

上個星期之前看過一段時間,對logstash基礎有一定了解。現在來好好記錄一下我的學習的東西。 logstash的工作流程：由input--->filter---->output構成。執行模型： Logstash事件處理管道協調input--

elasticsearch6.x官方文件學習筆記----Document API翻譯

開始之前先學習副本介紹：Elasticsearch的每個索引都被分成shard ，每個shard 可以有多個副本。這些副本稱為複製組，在新增或刪除文件時必須保持同步。如果我們不這樣做，從一個副本閱讀將會導致與從另

Scrapy官方文件筆記

相關推薦