Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

阿新 • • 發佈：2020-09-01

專案開始

第一步仍然是建立scrapy專案與spider檔案

切換到工作目錄兩條命令依次輸入

scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019

內容分析

開啟目標網站（分類是2019年上映的電影），分析我們需要的資料

進入頁面是列表的形式就像豆瓣電影一樣，然後我們點進去具體頁面看看

這個頁面就是我們需要拿到的內容頁面，我們來看我們需要哪些資料(某些資料從第一個頁面就可以獲得，但是下載地址必須到第二個頁面)

電影名稱
電影資訊
電影內容劇情
電影下載地址

分析完成之後就可以首先編寫 items.py檔案

另外別忘了去settings.py中開啟 ITEM_PIPELINES 選項

爬蟲檔案編寫

老樣子，為了方便測試我們的爬蟲，首先編寫一個main.py的檔案方便IDE呼叫

main.py：

import scrapy.cmdline
scrapy.cmdline.execute('scrapy crawl xunleiBT'.split())

首先我們先測試直接向目標傳送請求是否可以得到響應

爬蟲檔案 xunleiBT.py編寫如下：

執行 main.py 看看會出現什麼

好的，發現直接返回正常的網頁也就是我們要的網頁，說明該網站沒有反爬機制，這樣我們就更容易爬取了

然後通過xpath定位頁面元素，具體就不再贅述，之前的scarpy教程中都有繼續編寫爬蟲檔案

ITEM爬取完成後該幹什麼？當然是入庫儲存了，編寫pipelines.py檔案進行入庫儲存

再次提醒別忘了去settings.py中開啟 ITEM_PIPELINES 選項

pipelines.py檔案程式碼如下：

再次執行main.py 等待執行完成後開啟資料庫查詢

資料儲存完成，這次我們一共匯入了380個數據，可以愉快的檢視電影了

原始碼獲取加群哦：1136192749

Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

專案開始第一步仍然是建立scrapy專案與spider檔案切換到工作目錄兩條命令依次輸入

python網路爬蟲案例：批量爬取百度貼吧頁面資料

⾸先我們建立⼀個 python⽂件, tiebaSpider.py，我們要完成的是，輸⼊⼀個百度貼吧的地址，⽐如：

Scrapy爬蟲(五)：有限爬取深度例項

Scrapy爬蟲(五)：有限爬取深度例項 Scrapy爬蟲五有限爬取深度例項豆瓣樂評分析

Python爬蟲實現使用beautifulSoup4爬取名言網功能案例

本文例項講述了Python爬蟲實現使用beautifulSoup4爬取名言網功能。分享給大家供大家參考，具體如下：

python爬蟲學習01--電子書爬取

python爬蟲學習01--電子書爬取 1.獲取網頁資訊 import requests#匯入requests庫 \'\'\' 獲取網頁資訊

python爬蟲使用正則爬取網站的實現

本文章的所有程式碼和相關文章，僅用於經驗技術交流分享，禁止將相關技術應用到不正當途徑，濫用技術產生的風險與本人無關。

Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

Python爬蟲進階之爬取某視訊並下載的實現

這幾天在家閒得無聊，意外的挖掘到了一個資源網站（你懂得），但是網速慢廣告多下載不了種種原因讓我突然萌生了爬蟲的想法。

Python爬蟲進階之爬取某視訊並下載，沒有廣告的視訊看起來不爽嗎？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲入門實戰專案--爬取新筆趣閣小說

1、網頁檢視進入到全部小說，這就是我們要爬取的小說，這些夠看很長時間了

爬蟲實戰：批量爬取京東內衣圖片（自動爬取多頁，非一頁）

技術標籤：爬蟲爬蟲python 做下男生想做的事，爬取大量妹子內衣圖。作者：電氣-餘登武

爬蟲框架：scrapy

一介紹二安裝三命令列工具四專案結構以及爬蟲應用簡介五 Spiders 六 Selectors

Python爬蟲正則表達爬取b站所有動漫的評分

import requests import re import csv wq=1 while(wq<163): dat={ \"season_version\":\"-1\", \"spoken_language_type\":\"-1\",

python爬蟲學習：從資料庫讀取目標爬蟲站點及爬蟲規程，批量爬取目標站點制定資料（scrapy框架）

資料庫databaseConfig.py ` from urllib.parse import quote_plus from pymongo import MongoClient import settings

Python爬蟲實戰：爬取美團美食資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲實戰：爬取淘女郎照片

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

Python爬蟲實戰：爬取小姐姐最近的聽歌曲目

前言作為網易雲村的深度使用者，網易雲音樂應該是我除了微信外開啟時間最長的 App 了。並不是應為網易雲上面的歌曲多，而是因為那些走心的評論。邊聽歌邊刷評論，感覺就像是走進了他人的人生之中，從另外一種意義來

Python爬蟲案例：爬取攜程評論

前言之前爬取美團，馬蜂窩等網站的資料都挺順利，大眾點評（這個反爬機制有點麻煩）在磕磕絆絆中也算成功（重點是網頁頁數的變化和關鍵字的隱藏替換）但攜程居然遇到了瓶頸。

Python爬蟲實戰：爬取首都醫科大學文章

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲實戰：自動化登入網站，爬取商品資料

前言隨著網際網路時代的到來，人們更加傾向於網際網路購物。某東又是電商行業的巨頭，在某東平臺中有很多商家資料。今天帶大家使用python+selenium工具獲取這些公開的商家資料

Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

相關推薦