新建一個scrapy專案的步驟
1、建立一個scrapy的開發環境
mkvirtualenv article
mkvirtualenv --python=C:\Users\Administrator\AppData\Local\Programs\Python\Python\python.exe
2、使用 scrapy 來建立 ArticleSpider專案
在資料夾中右鍵,在此處開啟命令視窗,本人是在這個目錄 C:\Users\win\Desktop\scrapytest
然後輸入下面的指令:
scrapy startproject ArticleSpider
然後將專案匯入到pycharm中,專案的結構目錄如下圖所示
settings.py是一個總配置檔案:
BOT_NAME : 工程名字
SPIDER_MODULES:
NEWSPIDER_MODULE:
下面module的配置路徑
pipelines.py 這個是一個跟資料儲存相關的檔案
middlewares.py 可以自定義,讓scrapy更加可控
items.py 這個檔案有點類似於 django中的一個form,定義了資料儲存的格式
,但是它要比django的form應用簡單,因為它的欄位是十分單一的
spider資料夾:這個資料夾中存放的是具體的某個網站的爬蟲.
3、通過命令列,我們可以創建出屬於自己的一個spider
首先先進入到專案下面,然後執行命令本人專案路徑是: C:\Users\win\Desktop\scrapytest\ArticleSpider
scrapy genspider jobbole blog.jobbole.com
於是便看到了專案中已經新建了一個 jobbole.py檔案,如下圖所示:
我們看到jobbole.py這個檔案中已經預設生成了python程式碼,並且這個類繼承自 scrapy.Spider