scrapy爬蟲框架(一):scrapy框架簡介
阿新 • • 發佈:2018-11-08
一、安裝scrapy框架
#開啟命令列輸入如下命令:
pip install scrapy
二、建立一個scrapy專案
安裝完成後,python會自動將 scrapy命令新增到環境變數中去,這時我們就可以使用 scrapy命令來建立我們的第一個 scrapy專案了。
開啟命令列,輸入如下命令
scrapy startproject yourproject
這裡的 startproject
命令將會在當前目錄下建立一個 scrapy專案,後面跟著的引數是需要建立的專案的名稱。
比如這裡我們會建立一個名為 yourproject
的專案,專案結構如下:
yourproject/
scrapy.cfg
yourproject/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
這些檔案分別是:
- scrapy.cfg: 專案的配置檔案
- yourproject/: 該專案的python模組。該專案的所有程式碼都在這個目錄下
- yourproject/items.py: 專案中的item檔案,我們在這個檔案裡定義要爬取的資料,有點類似於 Django的 model。
- yourproject/pipelines.py:專案中的pipelines檔案(我把這個稱為通道檔案,意思就是資料處理的通道),對爬取到的資料進行處理(如:儲存)
- yourproject/settings.py: 專案的設定檔案,設定全域性變數的值、通道的開啟和關閉以及多個通道和爬蟲的執行優先順序
- yourproject/spiders/: 爬蟲的主要邏輯都在這個資料夾裡,包括頁面請求、資料提取、反爬措施等。
.