正則匹配的抓取貓眼電影排行Top100

阿新 • • 發佈：2019-02-16

本案例，我們利用requests庫和正則表示式來抓取貓眼電影TOP100的相關內容。

1.目標

提取貓眼電影Top100的電影名稱、時間、評分、圖片（下載）,提取的站點URL為：http://maoyan.com/board/4，圖片將儲存到指定資料夾中。

2.準備工作

需要安裝requests包（安裝方式：在配好的環境中：pip install requests即可）

3.抓取分析

通過開啟網頁，找到網頁之間的規律，如圖：
這裡寫圖片描述
可以發現頁面的URL變成：http://maoyan.com/board/4?offset=10，比之前的URL多一個引數，offset=10，並且目前顯示的結果是：11~20名的電影，由此可以找到其他排名電影頁面的URL規律。

4. 正則提取分析

在瀏覽器端的開發者模式下的Network監聽元件下檢視原始碼，如圖：
這裡寫圖片描述
而每個電影的內容都在一個dd標籤下：

正則表示式書寫：

<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i 
>.*?fraction">(.*?)</i>.*?</dd>

需要說明的是：以上的每個括號表示的就是要獲取的內容。

5.寫入檔案

在獲取提取的結果後，我們將資料寫到一個txt文件中，這裡資料是使用json格式的內容書寫的。

6.下載圖片

涉及到語言、圖片、視訊的時候，我們可以使用：with open("",'rb')的形式書寫。儲存。

7.程式碼詳解

#爬蟲庫
import requests
#json資料格式庫
import json
#requests異常
from requests.exceptions import RequestException
#正則表示式 

import re
#延遲函式
import time

#定義一個讀取一個url並返回相應資訊的函式
def get_one_page(url):
    try:
        #偽裝瀏覽器
        headers={
        "User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
        }
        #讀取網頁
        response=requests.get(url,headers=headers)
        #判斷是否讀取成功
        if response.status_code==200:
            #返回讀取的內容（html程式碼）
            return response.text
        return None
    except RequestException:
        return None
#定義一個解析html程式碼的函式
def parse_one_page(html):
    #編譯成一個正則表示式物件
    pattern = re.compile(r'<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    #開始查詢
    items = re.findall(pattern, html)
    #遍歷查詢到的內容
    for item in items:
        #使用關鍵字yield 類似於return 返回的是一個生成器物件
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]
        }
#將結果寫到一個txt文件中
def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
#圖片下載
def pic_download(url,title):
    r=requests.get(url)
    with open("pics/"+title+".jpg",'wb') as f:
        f.write(r.content)
#開啟需要爬取得所有網頁，並進行爬取
def main(offset):
    #網頁連結
    url='http://maoyan.com/board/4?offset='+str(offset)
    #請求網頁，獲取html
    html=get_one_page(url)
    #遍歷處理後的html結果
    for item in parse_one_page(html):
        #下載圖片
        pic_download(item['image'], item['title'])
        #寫入到檔案中
        write_to_file(item)
if __name__ == '__main__':
    for i in range(10):
        main(offset=i*10)
        #延遲1秒，避免反爬機制
        time.sleep(1)

8.執行結果

這裡寫圖片描述

正則匹配的抓取貓眼電影排行Top100

本案例，我們利用requests庫和正則表示式來抓取貓眼電影TOP100的相關內容。 1.目標提取貓眼電影Top100的電影名稱、時間、評分、圖片（下載）,提取的站點URL為：http://maoyan.com/board/4，圖片將儲存到指定資料

Python爬蟲之requests+正則表示式抓取貓眼電影top100以及瓜子二手網二手車資訊(四)

{'index': '1', 'image': 'http://p1.meituan.net/movie/[email protected]_220h_1e_1c', 'title': '霸王別姬', 'actor': '張國榮,張豐毅,鞏俐', 'time': '1993-01-01', 'sc

【3月24日】Requests+正則表示式抓取貓眼電影Top100

本次實驗爬蟲任務工具較為簡單，主要是熟悉正則表示式的匹配： pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>

00_抓取貓眼電影排行TOP100

前言：學習python3爬蟲大概有一週的時間，熟悉了爬蟲的一些基本原理和基本庫的使用，本次就準備利用requests庫和正則表示式來抓取貓眼電影排行TOP100的相關內容。 1、本次目標：需要爬去出貓眼電影排行TOP100的電影相關資訊，包括：名稱、圖片、演員、時間、評分，排名。提取站點的URL為h

用pyquery 初步改寫崔慶才的抓取貓眼電影排行（正在更新）特意置頂，提醒自己更新

items parse rac info sco ber windows time ont 目前正在學Python爬蟲，正在讀崔慶才的《Python3網絡爬蟲開發實戰》，之前學習正則表達式，但是由於太難，最後放棄了（學渣的眼淚。。。。），在這本書上的抓取貓眼電影排行上，

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

14-Requests+正則表示式爬取貓眼電影

'''Requests+正則表示式爬取貓眼電影TOP100''''''流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML程式碼，返回結果。正則表示式分析：根據HTML程式碼分析得到電影的名稱、主演、上映時間、評分、圖片連結等資訊。儲存至檔案：通過檔案的形式儲存結果，每一部電影一個結

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

Requests+正則表示式爬取貓眼電影top100

#!/usr/bin/python #coding=utf-8 # import requests from requests.exceptions import RequestException import re import json from multiproces

【Python】Requests+正則表示式爬取貓眼電影TOP100

1.先獲取到一個頁面，狀態碼200是成功返回 def get_one_page(url): # 獲取一個頁面 try: response = requests.get(url) if response.status_cod

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

利用request和re抓取貓眼電影排行

offset requests url oar 復習 .com one text mozilla import requests import re import time def get_one_page(url): headers = { &#

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

Requests獲取網頁資料運用Requests獲得網頁 import requests ##獲取單個網頁資料 def get_one_page(url): response = requests.get(url) r

Requests+正則表示式爬取貓眼TOP100電影

需要著重學習的地方:(1)爬取分頁資料時,url連結的構建(2)儲存json格式資料到檔案,中文顯示問題(3)執行緒池的使用(4)正則表示式的寫法 import requests from requests.exceptions import RequestException import re im

python requests抓取貓眼電影

def res b- int nic status () tle proc 1. 網址：http://maoyan.com/board/4? 2. 代碼： 1 import json 2 from multiprocessing import Po

Python爬蟲之使用正則表示式抓取資料

目錄匹配標籤匹配title標籤 a標籤 table標籤匹配標籤裡面的屬性匹配a標籤裡面的URL 匹配img標籤裡的 src 相關文章：Linux中的正則表示式 &nbs

正則匹配的抓取貓眼電影排行Top100

1.目標

2.準備工作

3.抓取分析

4. 正則提取分析

5.寫入檔案

6.下載圖片

7.程式碼詳解

8.執行結果

相關推薦