1. 程式人生 > >scrapy爬蟲框架(一):scrapy框架簡介

scrapy爬蟲框架(一):scrapy框架簡介

一、安裝scrapy框架

#開啟命令列輸入如下命令:
pip install scrapy

二、建立一個scrapy專案

安裝完成後,python會自動將 scrapy命令新增到環境變數中去,這時我們就可以使用 scrapy命令來建立我們的第一個 scrapy專案了。

開啟命令列,輸入如下命令

scrapy startproject yourproject

這裡的 startproject 命令將會在當前目錄下建立一個 scrapy專案,後面跟著的引數是需要建立的專案的名稱。

比如這裡我們會建立一個名為 yourproject 的專案,專案結構如下:

yourproject/
    scrapy.cfg
    yourproject/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

這些檔案分別是:

  • scrapy.cfg: 專案的配置檔案
  • yourproject/: 該專案的python模組。該專案的所有程式碼都在這個目錄下
  • yourproject/items.py: 專案中的item檔案,我們在這個檔案裡定義要爬取的資料,有點類似於 Django的 model。
  • yourproject/pipelines.py:專案中的pipelines檔案(我把這個稱為通道檔案,意思就是資料處理的通道),對爬取到的資料進行處理(如:儲存)
  • yourproject/settings.py: 專案的設定檔案,設定全域性變數的值、通道的開啟和關閉以及多個通道和爬蟲的執行優先順序
  • yourproject/spiders/: 爬蟲的主要邏輯都在這個資料夾裡,包括頁面請求、資料提取、反爬措施等。

.