爬蟲--Scrapy框架課程介紹
Scrapy框架課程介紹:
- 框架的簡介和基礎使用
- 持久化儲存
- 代理和cookie
- 日誌等級和請求傳參
- CrawlSpider
- 基於redis的分散式爬蟲
一scrapy框架的簡介和基礎使用
a) 概念:為了爬取網站資料而編寫的一款應用框架,出名,強大。所謂的框架其實就是一個集成了相應的功能且具有很強通用性的專案模板。(高效能的非同步下載,解析,持久化……)
b) 安裝:
i. linux mac os:pip install scrapy
ii. win:
- pip install wheel
- 下載twisted:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
pip install 下載好的框架.whl
- pip install pywin32
- pip install scrapy
c) 基礎使用: 使用流程
i. 建立一個工程:scrapy startproject 工程名稱
- 目錄結構:
ii. 在工程目錄下建立一個爬蟲檔案:
- cd 工程
- scrapy genspider 爬蟲檔案的名稱 起始url
iii. 對應的檔案中編寫爬蟲程式來完成爬蟲的相關操作
iv. 配置檔案的編寫(settings)
v. 執行
vi. 在工程目錄下建立一個爬蟲檔案
- cd 工程
- scrapy genspider 爬蟲檔案的名稱 起始的url
vii. 對應的檔案中編寫爬蟲程式來完成爬蟲的相關操作
viii. 配置檔案的編寫(settings)
- 19行:對請求載體的身份進行偽裝
- 22行:不遵從robots協議
ix. 執行 :scrapy crawl 爬蟲檔案的名稱 --nolog(阻止日誌資訊的輸出)
cp後面的數字代表python的版本,35代表3.5版本;