scrapy命令互動模式簡單介紹--小布老師網易雲課堂
阿新 • • 發佈:2018-12-12
scrapy命令互動模式介紹
scrapy 命令互動模式啟動
$ scrapy shell 網址[不需要引號]
命令互動模式中函式介紹
request 對網址發起請求的請求資訊
response網址伺服器響應請求,發回的響應資訊
view(response)呼叫系統自帶瀏覽器,檢視response中儲存著從網址中獲取的網頁資料
fetch(url)在互動模式下,重新對一個url網址傳送請求,自動更新到request和response中
scrapy專案爬蟲檔案說明
init.py -> 保持預設,不需要做任何修改
items.py-> 自定義專案類的地方,也就是爬蟲獲取到資料之後,傳入管道檔案(pipelinies.py)的載體
pipelinies.py->專案管道檔案,對傳入的專案類中的資料進行一個清理和入庫
settings.py->Scrapy專案的設定檔案,例如下載延遲,專案管道檔案中類的啟用以及自定義中介軟體的啟用和順序
spiders目錄-》裡面只有一個init.py檔案,在該目錄下定義爬蟲類並繼承scrapy.Spider
middlewares.py ->中介軟體配置檔案
Scrapy爬蟲檔案ganji.py介紹
name="zufang" 爬蟲名字,如果專案中有多個爬蟲,名字別重複
start_urls = ['http://....'] 爬蟲啟動後自動爬取的連結,列表內可以放多個連結
def parse(self,response):爬蟲啟動時,爬取連結成功後自動回撥的函式,預設parese,引數self和response也是必須得
response.xpath("").extract():固定格式,如果xpath("")裡面不放任何字串會報錯,如果裡面的字串是/結尾,則程式碼會報錯