Python爬蟲框架:scrapy爬取迅雷電影天堂最新電影!
阿新 • • 發佈:2020-09-01
專案開始
第一步仍然是建立scrapy專案與spider檔案
切換到工作目錄兩條命令依次輸入
scrapy startproject xunleidianying scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019
內容分析
開啟目標網站(分類是2019年上映的電影),分析我們需要的資料
進入頁面是列表的形式就像豆瓣電影一樣,然後我們點進去具體頁面看看
這個頁面就是我們需要拿到的內容頁面,我們來看我們需要哪些資料(某些資料從第一個頁面就可以獲得,但是下載地址必須到第二個頁面)
- 電影名稱
- 電影資訊
- 電影內容劇情
- 電影下載地址
分析完成之後就可以首先編寫 items.py檔案
另外別忘了去settings.py中開啟 ITEM_PIPELINES 選項
爬蟲檔案編寫
老樣子,為了方便測試我們的爬蟲,首先編寫一個main.py的檔案方便IDE呼叫
main.py:
import scrapy.cmdline scrapy.cmdline.execute('scrapy crawl xunleiBT'.split())
首先我們先測試直接向目標傳送請求是否可以得到響應
爬蟲檔案 xunleiBT.py編寫如下:
執行 main.py 看看會出現什麼
好的,發現直接返回正常的網頁也就是我們要的網頁,說明該網站沒有反爬機制,這樣我們就更容易爬取了
然後通過xpath定位頁面元素,具體就不再贅述,之前的scarpy教程中都有 繼續編寫爬蟲檔案
ITEM爬取完成後該幹什麼?當然是入庫儲存了,編寫pipelines.py檔案進行入庫儲存
再次提醒別忘了去settings.py中開啟 ITEM_PIPELINES 選項
pipelines.py檔案程式碼如下:
再次執行main.py 等待執行完成後開啟資料庫查詢
資料儲存完成,這次我們一共匯入了380個數據,可以愉快的檢視電影了
原始碼獲取加群哦:1136192749