1. 程式人生 > 實用技巧 >Python爬蟲框架:scrapy爬取迅雷電影天堂最新電影!

Python爬蟲框架:scrapy爬取迅雷電影天堂最新電影!

專案開始

第一步仍然是建立scrapy專案與spider檔案

切換到工作目錄兩條命令依次輸入

scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019

內容分析

開啟目標網站(分類是2019年上映的電影),分析我們需要的資料

進入頁面是列表的形式就像豆瓣電影一樣,然後我們點進去具體頁面看看

這個頁面就是我們需要拿到的內容頁面,我們來看我們需要哪些資料(某些資料從第一個頁面就可以獲得,但是下載地址必須到第二個頁面)

  • 電影名稱
  • 電影資訊
  • 電影內容劇情
  • 電影下載地址

分析完成之後就可以首先編寫 items.py檔案

另外別忘了去settings.py中開啟 ITEM_PIPELINES 選項

爬蟲檔案編寫

老樣子,為了方便測試我們的爬蟲,首先編寫一個main.py的檔案方便IDE呼叫

main.py:

import scrapy.cmdline
scrapy.cmdline.execute('scrapy crawl xunleiBT'.split())

首先我們先測試直接向目標傳送請求是否可以得到響應

爬蟲檔案 xunleiBT.py編寫如下:

執行 main.py 看看會出現什麼

好的,發現直接返回正常的網頁也就是我們要的網頁,說明該網站沒有反爬機制,這樣我們就更容易爬取了

然後通過xpath定位頁面元素,具體就不再贅述,之前的scarpy教程中都有 繼續編寫爬蟲檔案

ITEM爬取完成後該幹什麼?當然是入庫儲存了,編寫pipelines.py檔案進行入庫儲存

再次提醒別忘了去settings.py中開啟 ITEM_PIPELINES 選項

pipelines.py檔案程式碼如下:

再次執行main.py 等待執行完成後開啟資料庫查詢

資料儲存完成,這次我們一共匯入了380個數據,可以愉快的檢視電影了

原始碼獲取加群哦:1136192749