Python爬蟲之豆瓣電影

阿新 • • 發佈：2021-06-16

豆瓣電影爬蟲[GitHub]

　　豆瓣電影資料庫是目前高質量電影資訊的聚集地。對於一些視訊聚合應用、資料探勘應用等場景，豆瓣電影資料庫仍然是一個很好的選擇。

　　首先在Github上找到一個豆瓣爬蟲專案（唯一一個50star以上）的一個專案doubanspiders，然後進行改造。

該專案存在一些問題，並進行了完善：

模擬登陸已經失效（現在已經改成滑塊，暫不實現，目前看來未登陸並不影響採集）
請求會導致重定向過多的問題（重新調整header）
缺少影評（只實現首頁前5條評論）、上映日期、主圖、簡介不全(過長會隱藏，導致抓取不全)
缺少請求超時和重試機制

以下是專案douban-movie的設計思路

遍歷方式介紹

本文涉及的遍歷思路有兩種：

根據id進行遍歷
根據關鍵詞種子，遍歷搜尋結果

根據id進行遍歷

豆瓣電影資訊的url格式為：https://movie.douban.com/subject/id。例如：https://movie.douban.com/subject/26683290/

豆瓣是從2005年創辦的，2005年以前的電影資訊id很可能是最早的id。

搜尋1999，得到一個1998年的電影。https://movie.douban.com/subject/1303954/。id編號是七位的數字：1303954。搜尋2016，得到最新的電影。https://movie.douban.com/subject/26928204/。

id編號是八位的數字：26928204。由此猜測，目前(2016年)豆瓣電影的id大致是1300000到27000000。

由於反爬蟲的設計，id是不連續的。為了提高命中率，需要對id的分佈規律進行分析。

根據關鍵詞種子，遍歷搜尋結果

豆瓣電影提供了搜尋介面。通過關鍵詞搜尋得到相關記錄的連結。比如按年份獲取，關鍵詞可為：2005,2006，....2016。比如分分類獲取，關鍵詞可為：動作，冒險，愛情，記錄...。

總結

需要較為完整的資料庫資訊，可採用id遍歷。抓取的目的性較強時，可以採用關鍵詞抓取。

TODO:

豆瓣的URL設計是比較符合RESTful規範的。根據豆瓣的id即可抓取其他相關的資源
由於豆瓣的反爬蟲機制，id是稀疏。可以考慮篩選一些沒有內容的id以提高命中率。

由於豆瓣限制了每個IP允許抓取的訪問次數，可以使用代理IPproxymesh來提升抓取速度
更新包依賴

影評：https://movie.douban.com/subject/26366465/reviews

圖片：https://movie.douban.com/subject/26366465/all_photos

預告片：https://movie.douban.com/subject/26366465/trailer

使用說明

預設設定

測試用的賬號密碼
預設為csv方式儲存，儲存路徑為程式當前路徑
預設遍歷方式為id遍歷
安裝依賴：pip3 install -r requirements.txt

資料庫設計

很明顯，專案中的資料庫設計是不符合資料庫正規化的。為了上手容易，一切從簡。

法律義務

該爬蟲僅為個人研究。如有商業用途請與豆瓣聯絡或參考相關法律約束。

Python爬蟲之豆瓣電影

豆瓣電影爬蟲[GitHub] 　　豆瓣電影資料庫是目前高質量電影資訊的聚集地。對於一些視訊聚合應用、資料探勘應用等場景，豆瓣電影資料庫仍然是一個很好的選擇。

Python爬蟲獲取豆瓣電影並寫入excel

豆瓣電影排行榜前250 分為10頁，第一頁的url為https://movie.douban.com/top250,但實際上應該是https://movie.douban.com/top250?start=0 後面的引數0表示從第幾個開始，如0表示從第一（肖申克的救贖）到第二十五

python爬蟲系列之豆瓣電影top250原始碼

import requests import re import csv url = \'https://movie.douban.com/top250?start=0&filter=\' for i in range(0,226,25):

Python爬蟲之爬取豆瓣top

Python爬蟲之爬取豆瓣top import bs4# 網頁解析，獲取資料 import re# 正則表示式，進行文字匹配

python爬蟲之遍歷單個域名

即使你沒聽說過“維基百科六度分隔理論”，也很可能聽過“凱文 • 貝肯（Kevin Bacon）的六度分隔值遊戲”。在這兩個遊戲中，目標都是把兩個不相干的主題（在前一種情況中是相互連結的維基百科詞條，而在後一

Python爬蟲之urllib基礎用法教程

綜述本系列文件用於對Python爬蟲技術進行簡單的教程講解，鞏固自己技術知識的同時，萬一一不小心又正好對你有用那就更好了。

[python爬蟲之路day12]:基於爬蟲的mongodb資料庫的基本操作

今天學習了mongodb資料庫的基本操作。初步瞭解資料庫的爬蟲方面的簡單操作，記錄如下：

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python爬蟲實現vip電影下載的示例程式碼

爬蟲目的實現對各大視訊網站vip電影的下載，因為第三方解析網站並沒有提供下載的渠道，因此想要實現電影的下載。

Python爬蟲之 selenium 設定 PhantomJS header請求頭

from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

Python 爬蟲之設定ip代理，設定User-Agent，設定請求頭，設定post載荷

1、get方式：如何為爬蟲新增ip代理，設定Request header（請求頭） import urllib import urllib.request

Python爬蟲之爬取淘女郎照片示例詳解

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

Python爬取豆瓣電影、演員評分，平做出視覺化圖（律師函警告）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

正則表示式-爬蟲獲取豆瓣電影超連結

視訊學習資料： https://www.bilibili.com/video/BV12E411A7ZQ?p=22 常用正則表示式知識總結與應用：

python爬蟲之Beautiful Soup基礎知識+例項

python爬蟲之Beautiful Soup基礎知識 Beautiful Soup是一個可以從HTML或XML檔案中提取資料的python庫。它能通過你喜歡的轉換器實現慣用的文件導航，查詢，修改文件的方式。

python爬蟲之多執行緒、多程序+程式碼示例

python爬蟲之多執行緒、多程序使用多程序、多執行緒編寫爬蟲的程式碼能有效的提高爬蟲爬取目標網站的效率。

Python 爬蟲之Scrapy《上》

歡迎關注【無量測試之道】公眾號，回覆【領取資源】,Python程式設計學習資源乾貨、Python+Appium框架APP的UI自動化、Python+Selenium框架Web的UI自動化、Python+Unittest框架API自動化、

Python 爬蟲之Scrapy《中》

Python 爬蟲之Scrapy《下》

Python爬蟲之QQ空間登陸獲取資訊！

一、背景：前幾天收到了一個需求：獲取QQ好友，QQ群，QQ群友的賬號。但是我卻抓不到QQ程式的包就很尷尬，我覺得應該是QQ程式之間的通訊協議大部分不是HTTP或者HTTPS，而我用的是Fillder所以找不到包，但是不影響我完

Python爬蟲之豆瓣電影

遍歷方式介紹

根據id進行遍歷

根據關鍵詞種子，遍歷搜尋結果

總結

TODO:

使用說明

資料庫設計

法律義務

相關推薦