scrapy爬蟲簡單案例（簡單易懂適合新手）

阿新 • • 發佈：2022-04-03

爬取所有的電影名字，型別，時間等資訊

1.準備工作

爬取的網頁 https://www.ddoutv.com/f/27-1.html

建立專案

win + R 開啟cmd輸入

scrapy startproject 專案名

然後在pycharm終端輸入

scrapy genspider 類名 xxx.com
一個爬蟲類就建立好了

2.思路分析

我們爬取全站資料首先要將分頁的url規律找到
因為我們的資料在二級頁碼，所以需要在一級頁面裡面拿到所以的二級頁碼url再進行請求
二級頁碼url拿到後就可以開始寫xpath獲取需要的資料了*
具體註釋在程式碼內
程式碼如下
`import scrapy

from move.items import MoveItem

class TestSpider(scrapy.Spider):
name = 'Test'

# allowed_domains = ['xxx.con']
def start_requests(self):
    # 有4896頁資料所有迴圈請求
    for i in range(1, 4897):
        # html分頁符用i代替
        start_urls = f'https://www.ddoutv.com/f/27-{i}.html'
        # 手動請求url
        yield scrapy.Request(url=start_urls, callback=self.parse)

def parse(self, response, **kwargs):
    # 爬取所有的二級頁面的url
    all_a = response.xpath('//div[@class="stui-pannel-box"]/div[@class="stui-pannel_bd"]/ul/li')
    # 遍歷出來
    for li in all_a:  # type:scrapy.Selector
        link = li.xpath('./div/a/@href').extract()[0]
        # 將url拼接完整
        links = response.urljoin(link)
        # 回撥
        yield scrapy.Request(url=links, callback=self.reques)

def reques(self, response):
    # 獲取二級頁面的資料
    all_name = response.xpath('//div[@class="stui-content"]/div[@class="container"]/div[@class="row"]/div/div[2]')
    for i in all_name:
        name = i.xpath('./h1/text()').extract_first(default=0)
        print(name)
        types = i.xpath('./p[1]/a[1]/text()').extract_first(default=0)
        print(types)
        address = i.xpath('./p[1]/a[2]/text()').extract_first(default=0)
        print(address)
        year = i.xpath('./p[1]/a[3]/text()').extract_first(default=0)
        print(year)
        actor = i.xpath('./p[2]/text()').extract_first(default=0)
        print(actor)
        director = i.xpath('./p[3]/text()').extract_first(default=0)
        print(director)
        update = i.xpath('./p[4]/text()').extract_first(default=0)
        print(update)`

3.執行結果圖

到此一個簡單的scrapy爬取專案就完成啦！

scrapy爬蟲簡單案例（簡單易懂適合新手）

爬取所有的電影名字，型別，時間等資訊 1.準備工作爬取的網頁https://www.ddoutv.com/f/27-1.html

Java native 關鍵字簡單案例（Mac）

java native關鍵字：允許開發者通過呼叫c/c++的程式滿足自己的開發需求。在java中宣告一個native方法，但不通過java實現，而是用c/c++實現這個方法。

Linux下檔案加密解密簡單版（支援壓縮加密解密）

首先說下實現方法：使用Linux的openssl命令進行二進位制檔案的加密解密，使用管道命令進行檔案的加密解密操作

線性表的順序表示的簡單實現（順序表的實現）

目錄 1、順序表的概念 2、順序表的的儲存表示和實現 3、基本操作的實現　　3.1初始化

Spring及其及模組的簡單應用（一、初始Spring）

目錄： actuator curl maven parent actuator Spring Boot Actuator可以幫助你監控和管理Spring Boot應用，比如健康檢查、審計、統計和HTTP追蹤等。

Array的簡單使用（Boost和STL通用）

目錄目錄介紹使用 Boost和STL的區別介紹本來這一次是想簡單介紹一下Boost裡面的協程庫的使用的，但是Boost.Coroutine已經被廢棄了，而Boost.Coroutine2目前只有非對稱的協程支援，個人感覺並不是特別具有使用

Windows Nginx 簡單入門（安裝/配置/反向代理）

Nginx 是 lgor Sysoev 為俄羅斯訪問量第二的 rambler.ru 站點設計開發的。從2004年釋出至今，憑藉開源的力量，已經接近成熟與完善。

Windows下C++單檔案開發環境搭建（不適合新手）

博文背景還記得曾經在Windows下折騰C++的開發環境非常頭疼，各種報錯。後來隨著技術的進步和社群的努力，可以在一兩分鐘內搭建好寫OJ的那種開發環境。這篇文章作為個人記錄帖，不適合新手。

機房***抓包不會怎麼辦？看Sniffer軟體簡介（適合新手）

第1章Sniffer軟體簡介概述Sniffer軟體是NAI公司推出的功能強大的協議分析軟體。本文針對用Sniffer Pro網路分析器進行故障解決。利用Sniffer Pro網路分析器的強大功能和特徵，解決網路問題，將介紹一套合理

git基本操作（適合新手）

本人也是剛剛開始學習大家可以一起交流，大佬可以在教一下目錄 git配置 git本地倉庫

對SQLServer錯誤使用聚集索引的優化案例（千萬級資料量）

前言：半個月前發了文章 SQLServer聚集索引導致的插入效能低終於等到生產環境休整半天，這篇文章是對前文的實際操作。

爬蟲學習一（web請求基礎知識）

Web請求過程：伺服器渲染：收到請求後伺服器把請求的資料和html整合在一起打包返回給瀏覽器，只需要一次訪問就能得到想要的資料，檢視網頁原始碼可以找到相應資料。

Nginx 實踐案例（原始碼編譯安裝方式）：利用LNMP搭建wordpress站點

映象下載、域名解析、時間同步請點選阿里雲開源映象站 LNMP是Linux + Nginx + MySQL + PHP 四個系統的首字母縮寫，相對於 LAMP（Linux + Apache + MySQL + PHP ）來說的。曾經在虛擬主機建站界風靡一時，隨著新的

從零開始初嘗Three.js（大量案例、簡單入手）

不經意間看到了某個官網的動態效果~ 實在是太帥啦！十分地友好查了查實現該效果地技術 —— 原來是Three.js

Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

本文例項講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

kafka第三天（簡單案例程式碼）

kafka配置類 /** * @ClassName * @Description TODO * @AUTHOR admin * @DATE 2020/6/29 17:35 */ @Configuration

轉載——Python實現Reids任務佇列（簡單案例）

首先得了解redis資料庫的lpush和brpop命令： 1.Redis Lpush 命令將一個或多個值插入到列表頭部。如果 key 不存在，一個空列表會被建立並執行 LPUSH 操作。當 key 存在但不是列表型別時，返回一個錯誤。

Android增量更新（簡單易懂）

技術標籤：android 一、介紹增量更新顧名思義就是在舊版本apk基礎上進行更新，那麼我們需要如何操作呢，這裡先介紹下bsdiff.exe工具，使其對新舊版本安裝包做拆分，生成patch檔案。更新時只需下載這個檔案即可，

梳理ajax跨域常用4種解決方案（簡單易懂）

技術標籤：javawebpythonjavascripthttp 閱讀本文大概需要 8 分鐘。前言自動接觸前端，跨域這個詞就一直縈繞在耳畔。因為一般接手的專案都已經做好了這方面的處理，而且之前一直感覺對這方面模稜兩可，所以今

scrapy爬蟲簡單案例（簡單易懂 適合新手）

爬取所有的電影名字，型別，時間等資訊

到此一個簡單的scrapy爬取專案就完成啦！

相關推薦

scrapy爬蟲簡單案例（簡單易懂適合新手）