Scrapy 創建項目 (未完)
阿新 • • 發佈:2018-01-12
虛擬 ddl head nes 我們 去重 proxy 等等 res
1. 安裝python3
2. python虛擬環境搭建
https://www.jianshu.com/p/ad2d8ee4a679
3.Python3.6 下 Scrapy 安裝
http://blog.csdn.net/yctjin/article/details/70658811
4.Scrapy創建項目
workon py3env
cd g:/pyproject
scrapy startproject jd
在PyCharm中打開項目
5.Scrapy項目結構說明
scrapy.cfg 項目的配置文件,帶有這個文件的那個目錄作為scrapy項目的根目錄 items.py 定義你所要抓取的字段 pipelines.py 管道文件,當spider抓取到內容(item)以後,會被送到這裏,這些信息(item)在這裏會被清洗,去重,保存到文件或者數據庫。 middlewares.py 中間件,主要是對功能的拓展,你可以添加一些自定義的功能,比如添加隨機user-agent, 添加proxy。 settings.py 設置文件,用來設置爬蟲的默認信息,相關功能開啟與否,比如是否遵循robots協議,設置默認的headers,設置文件的路徑,中間件的執行順序等等。 spiders/ 在這個文件夾下面,編寫你自定義的spider。
6.編寫爬蟲
在項目中的spiders文件夾下面創建一個文件,命名為baidu.py我們將在這個文件裏面編寫我們的爬蟲。
Scrapy 創建項目 (未完)