爬取貓眼電影網前100的電影排名

阿新 • • 發佈：2018-11-16

爬取貓眼電影網前100的電影排名

貓眼電影網:http://maoyan.com/board/4
在這裡插入圖片描述

確定要爬取的資料：
1：排名
2：電影名稱
3：主演
4：上映舌尖
5：評分

構造下一頁url
首頁:http://maoyan.com/board/4?offset=0
第二頁 http://maoyan.com/board/4?offset=10
第十頁 http://maoyan.com/board/4?offset=100
我們發現url中變化的只有數字那麼我們可以通過迴圈構造出這個url

我們需要的資訊全都在這些標籤中:
在這裡插入圖片描述

用紅色圈起來的地方就是我們需要的資訊我們一個個找到他們然後將資訊提取出來
在這裡插入圖片描述

#!/usr/bin/env python 
# -*- coding: utf-8 -*-
# @Time    : 2018/11/5 18:06
# @Desc    : 爬取貓眼電影網前100的電影排名
import requests
import json
from pyquery import PyQuery as pq

headers = {
    'proxy': 'https: 219.135.169.85:47315',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36'
                  ' (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}


def start_request(url):
    """發起請求 獲得頁面原始碼"""
    r = requests.get(url, headers=headers)
    return r.text


def parse(text):
    """解析原始碼 獲得資料"""
    doc = pq(text)
    # 找到頁面原始碼中的dd標籤
    infos = doc('dl.board-wrapper dd').items()
    for info in infos:
        refect = {}
        refect['rank'] = info.find('i.board-index').text()  # 排名
        refect['name'] = info.find('p.name a').text()   # 電影名字
        refect['actor'] = info.find('p.star').text()    # 演員
        refect['time'] = info.find('p.releasetime').text()  # 上映時間
        refect['score'] = info.find('p.score').text()   # 評分
        result_list.append(refect)
    return result_list


def write_json(result):
    """寫入json檔案"""
    s = json.dumps(result, indent=4, ensure_ascii=False)
    with open('cateye.json', 'w', encoding='utf8') as f:
        f.write(s)
    print("寫入完成")


def main():
    for i in range(10):
        """構造url"""
        url = "http://maoyan.com/board/4?offset={}".format(i * 10)
        text = start_request(url)
        result = parse(text)
    write_json(result)


if __name__ == "__main__":
    result_list = []
    main()

執行程式後來檢視json檔案：
在這裡插入圖片描述

OK 到此結束!

爬取貓眼電影網前100的電影排名

爬取貓眼電影網前100的電影排名貓眼電影網:http://maoyan.com/board/4 確定要爬取的資料： 1：排名 2：電影名稱 3：主演 4：上映舌尖 5：評分構造下一頁url 首頁:http://maoyan.com/board/4?offset=0 第二

爬取貓眼電影前100名（獲取圖片並記錄名字跟排名）

簡述程式碼實現上，這個可以說是不難的。但是需要注意的是，這裡的有一些細節得注意一下。協程的，gevent.joinall() 需要的是一個可以迭代的物件，但是內容必須是gevent.spawn

第十一講：爬取貓眼網站上的前100名電影

本次我們來通過翻頁爬取的方式爬取貓眼電影裡面推薦的前100名電影，並存儲到資料庫。 1、我們登入貓眼，看下我們的資料在哪裡

如何爬取貓眼網電影票房資料

https://blog.csdn.net/qq_31032181/article/details/79153578 一、背景字型反爬應用還是很普遍。這兩天有朋友諮詢如何實現貓眼票房資料的爬取，這裡其實與上面的文章核心思想是一致的，但是操作更復雜一些，本文做一個更詳細的破解實踐

爬蟲——爬取貓眼電影網

import json from multiprocessing import Pool import requests from requests.exceptions import RequestException import re def get_one_page

python爬取貓眼電影 top 100 儲存到CSV

開啟是個執行緒，把迴圈事件匯入到執行緒中。 import threading from bs4 import BeautifulSoup import requests, csv from lxml i

Python爬取貓眼電影100榜並儲存到excel表格

首先我們前期要匯入的第三方類庫有; 通過貓眼電影100榜的原始碼可以看到很有規律如: 亦或者是: 根據規律我們可以得到非貪婪的正則表示式 """<

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

Requests+正則表達式爬取貓眼電影

movies core http status roc find apple ascii int 代碼: import re import json from multiprocessing import Pool import requests from reque

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Scrapy爬取貓眼電影評論

Scrapy爬取貓眼電影評論文章目錄 Scrapy爬取貓眼電影評論 1、尋找評論介面 2、分析介面URL 介面URL規律構造URL介面分析JSON引數 3、Scrapy程式碼

python學習(23)requests庫爬取貓眼電影

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。用requests寫一個基本的爬蟲排行資訊大致如下圖網址連結為http://maoyan.com/board/4?offset=0我們通過點選檢視原始檔，可以看到網頁資訊每一

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

爬取貓眼電影網前100的電影排名

爬取貓眼電影網前100的電影排名

相關推薦