正則抓取貓眼TOP100電影的海報

阿新 • • 發佈：2019-02-19

1，開啟貓眼電影TOP100的榜單網址：

2，Google Chrome 瀏覽器中按F12，開啟開發者面板，使用Network:

此時什麼也沒有。

3，回到榜單的原始頁面，按下F5進行重新整理，此時再看開發者面板中的Network中會有資訊流：

通過查詢看到每條電影的相關資訊均在一個<dd></dd>中，上圖中標明瞭電影海報超連結的位置和電影名稱的位置。

可以用正則表示式提取出相關的資訊。

4，電影Top100總共有10頁，每頁10條，每頁的網址有規律：

第1,2,3,...10頁的網址
http://maoyan.com/board/4?offset=0
http://maoyan.com/board/4?offset=10
http://maoyan.com/board/4?offset=20
...
http://maoyan.com/board/4?offset=90

offset=後面的數字0、10、20、。。。90分別對應第1,2,3，。。。10頁。

因此，外層迴圈控制頁數，內層迴圈控制每頁中電影的網址，可完成對每個電影的海報進行下載。

5，程式碼：

# 貓眼電影的TOP100電影海報下載
# 第1,2,3,...10頁的網址
# http://maoyan.com/board/4?offset=0
# http://maoyan.com/board/4?offset=10
# http://maoyan.com/board/4?offset=20
# ...
# http://maoyan.com/board/4?offset=90
import requests
import re
import random
import time
import os


def doanload_onepage(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
            }
    response = requests.get(url, headers=headers)
    html = response.text
#   print(html)

    pattern = re.compile('<dd>.*?data-src="(.*?)".*?"name"><a.*?>(.*?)</a>.*?</dd>', re.S)    # 提取電影的海報連結和名稱
    movies = re.findall(pattern, html)
    print(movies)
    print(type(movies))
    file_path = r'F:\MaoYaoTop100Movies'
    if not os.path.exists(file_path):
        os.makedirs(file_path)    # 如果儲存路徑不存在，則進行建立
    os.chdir(file_path)           # 改變儲存路徑到F:\MaoYaoTop100Movies
    for item in movies:
        href = item[0]
        name = item[1]
        print(href)
        print(name)
        response = requests.get(url=href, headers=headers)
        content = response.content
        picture_name = name + '.jpg'
        with open(picture_name, 'wb') as f:
            f.write(content)
        time.sleep(random.random() * 3)
    print('第{}頁下載完畢.'.format(int(offset/10+1)))
    time.sleep(random.random() * 9)


if __name__ == '__main__':
    pages = 10    # 總共10頁
    for i in range(pages):
        doanload_onepage(offset=i * 10)
    print('====Top100電影海報下載完畢====')

過程：

下載的目錄檔案：

至此，利用正則表示式下載貓眼Top100的電影海報成功完成。

參考：

正則抓取貓眼TOP100電影的海報

1，開啟貓眼電影TOP100的榜單網址： 2，Google Chrome 瀏覽器中按F12，開啟開發者面板，使用Network: 此時什麼也沒有。 3，回到榜單的原始頁面，按下F5進行重新整理，此時再看開發者面板中的Network中會有資訊流：通過查詢看

python3實現抓取貓眼top100電影資訊

前言：最近正在學習python爬蟲,瞭解一些基礎知識後，還是要實踐動手熟悉。下面文章例子有空再加備註。。import requests import re import json import time from requests.exceptions import Requ

Requests+正則表示式爬取貓眼TOP100電影

需要著重學習的地方:(1)爬取分頁資料時,url連結的構建(2)儲存json格式資料到檔案,中文顯示問題(3)執行緒池的使用(4)正則表示式的寫法 import requests from requests.exceptions import RequestException import re im

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

爬取貓眼top100電影並存儲在mysql中

import requests from bs4 import BeautifulSoup import pymysql print("連線到mysql伺服器...") db = pymysql.co

使用requests和xpath爬取貓眼TOP100電影

技術路線:requests-xpath - 使用 requests 獲取網頁內容使用 try...except 獲取網頁內容 - 使用 xpath 解析網頁對主要資訊使用 xpath 進行提取 - 翻頁及反爬處理貓眼的翻頁處理是 url 處進行翻頁的 ht

爬取貓眼 TOP100 電影並以 excel 格式儲存

爬取目標本文將提取貓眼電影 TOP100 排行榜的電影名稱、時間、評分、圖片等資訊，URL 為http://maoyan.com/board/4，提取的結果我們以 excel 格式儲存下來。準備工作爬取分析開啟http://maoya

requests和正則爬取貓眼的資料

用requests爬取貓眼網站的top100榜單，再用正則提取所需的資料，並將資料儲存 #成功抓取所有資料，並存為檔案（參考程式碼：https://github.com/Germey/TouTiao/blob/master/spider.py） import request

爬取貓眼top100電影並存儲在本地csv檔案中

import requests from bs4 import BeautifulSoup import time import csv def getcontent(url): #網頁請求頭

Python爬蟲之requests+正則表示式抓取貓眼電影top100以及瓜子二手網二手車資訊(四)

{'index': '1', 'image': 'http://p1.meituan.net/movie/[email protected]_220h_1e_1c', 'title': '霸王別姬', 'actor': '張國榮,張豐毅,鞏俐', 'time': '1993-01-01', 'sc

【3月24日】Requests+正則表示式抓取貓眼電影Top100

本次實驗爬蟲任務工具較為簡單，主要是熟悉正則表示式的匹配： pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>

正則匹配的抓取貓眼電影排行Top100

本案例，我們利用requests庫和正則表示式來抓取貓眼電影TOP100的相關內容。 1.目標提取貓眼電影Top100的電影名稱、時間、評分、圖片（下載）,提取的站點URL為：http://maoyan.com/board/4，圖片將儲存到指定資料

00_抓取貓眼電影排行TOP100

前言：學習python3爬蟲大概有一週的時間，熟悉了爬蟲的一些基本原理和基本庫的使用，本次就準備利用requests庫和正則表示式來抓取貓眼電影排行TOP100的相關內容。 1、本次目標：需要爬去出貓眼電影排行TOP100的電影相關資訊，包括：名稱、圖片、演員、時間、評分，排名。提取站點的URL為h

Python爬蟲之三：抓取貓眼電影TOP100

今天我要利用request庫和正則表示式抓取貓眼電影Top100榜單。執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器 1. 抓取單頁內容瀏

Python爬蟲之抓取貓眼電影TOP100

執行平臺：windowsPython版本：Python 3.7.0IDE:Sublime Text瀏覽器：Chrome瀏覽器思路： 1.檢視網頁原始碼 2.抓取單頁內容 3.正則表示式提取資訊

Python爬蟲之一：抓取貓眼電影TOP100

執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器1. 抓取單頁內容瀏覽器開啟貓眼電影首頁，點選“榜單”，然後再點選”TOP100榜”，就能看到想要的了。接下來通過程式碼來獲取網頁的HTML

抓取貓眼電影top100

一、目標運用requests+正則表示式爬取貓眼電影top100的電影圖片、名稱、時間、評分等資訊，提取站點的url為"http://maoyan.com/board/4"，提取結果以文字的形式儲存下來。二、準備工作1. 安裝python 首先，下載Python3，這裡使用P

python requests抓取貓眼電影

def res b- int nic status () tle proc 1. 網址：http://maoyan.com/board/4? 2. 代碼： 1 import json 2 from multiprocessing import Po

用pyquery 初步改寫崔慶才的抓取貓眼電影排行（正在更新）特意置頂，提醒自己更新

items parse rac info sco ber windows time ont 目前正在學Python爬蟲，正在讀崔慶才的《Python3網絡爬蟲開發實戰》，之前學習正則表達式，但是由於太難，最後放棄了（學渣的眼淚。。。。），在這本書上的抓取貓眼電影排行上，

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

正則抓取貓眼TOP100電影的海報

相關推薦