Python爬取貓眼電影100榜並儲存到excel表格

阿新 • • 發佈：2019-10-22

首先我們前期要匯入的第三方類庫有;

通過貓眼電影100榜的原始碼可以看到很有規律如:

亦或者是:

根據規律我們可以得到非貪婪的正則表示式

"""<div class="movie-item-info">.*?title="(.*?)".*?class="star">(.*?)</p>.*?releasetime">(.*?)</p>"""

之後我們觀察網頁地址(url)的變化規律:

這是第一頁的網址: https://maoyan.com/board/4?offset=0

這是第二頁的網址: https://maoyan.com/board/4?offset=10

這是第三頁的網址: https://maoyan.com/board/4?offset=20

可以見的網頁變化規律為:(當前頁數-1)*10 即為:(N-1)*10

之後下面進行爬取

 1 from urllib import request
 2 import random
 3 import time
 4 import csv
 5 import re
 6 import xlwt
 7 
 8 class catEyesMovie:
 9 
10     def __init__(self):
11         self.url = 'https://maoyan.com/board/4?offset={}'
12         self.ua_list = [
13             'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'
14         ]
15         self.line = 1;
16             #'User-Agent': 'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'
17 
18 
19     #獲取網頁內容
20     def get_page(self,url):
21         #使用隨機的user-agent
22         headers = {'User-Agent':random.choice(self.ua_list)}
23         #建立請求物件
24         req = request.Request(url=url,headers=headers)
25         #傳送請求
26         res = request.urlopen(req)
27         #獲取相應物件
28         html = res.read().decode('utf-8','ignore')
29         return html
30 
31     #清洗資料
32     def clean_page(self,html,xwlt):
33         pattern = re.compile("""<div class="movie-item-info">.*?title="(.*?)".*?class="star">(.*?)</p>.*?releasetime">(.*?)</p>""", re.S)
34         r_list = pattern.findall(html)
35         self.write_page(r_list,xwlt)
36 
37 
38     #儲存內容
39     def write_page(self,r_list,xwlt):
40         one_film_dict = {}
41         for rt in r_list:
42             xwlt.write(self.line,0,rt[0].strip())
43             xwlt.write(self.line,1,rt[1].strip())
44             xwlt.write(self.line,2,rt[2].strip())
45             self.line+=1
46 
47 
48 
49     def main(self,xwlt):
50         #憑藉字串
51         res = []
52         for i in range(1,11):
53             #拼接url地址 https://maoyan.com/board/4?offset={}
54             #獲取當前頁數
55             offset = (i-1)*10
56             url = self.url.format(offset)
57             html = self.get_page(url)
58             self.clean_page(html,xwlt)
59 
60 
61 
62 
63 
64 if __name__ == '__main__':
65     start = time.time()
66     spider = catEyesMovie()
67     #建立一個xlwt物件
68     book = xlwt.Workbook(encoding='utf-8')
69     #建立sheet,Sheet1為表的名字,cell_overwirite_ok為是否覆蓋單元格
70     sheet1 = book.add_sheet(u'Sheet1',cell_overwrite_ok=True)
71     #進行第一行標題定義
72     sheet1.write(0,0,'電影名稱')
73     sheet1.write(0,1,'主演')
74     sheet1.write(0,2,'上映時間')
75     #進行爬取
76     spider.main(sheet1)
77     book.save('D:\\write.xls')
78     end = time.time()
79     print('執行時間為: %.2f' % (end-start))

每次爬取到的資料結構為:

1 {'電影名稱': '速度與激情5', '主演': '速度與激情5', '上映時間': '速度與激情5'}
2 {'電影名稱': '馴龍高手', '主演': '馴龍高手', '上映時間': '馴龍高手'}
3 {'電影名稱': '勇敢的心', '主演': '勇敢的心', '上映時間': '勇敢的心'}
4 {'電影名稱': '聞香識女人', '主演': '聞香識女人', '上映時間': '聞香識女人'}
5 {'電影名稱': '神偷奶爸', '主演': '神偷奶爸', '上映時間': '神偷奶爸'}

完成後的excel表格如下:

　　　　　　　　僅供學習!!

Python爬取貓眼電影100榜並儲存到excel表格

首先我們前期要匯入的第三方類庫有; 通過貓眼電影100榜的原始碼可以看到很有規律如: 亦或者是: 根據規律我們可以得到非貪婪的正則表示式 """<

python爬取貓眼電影top100榜

python版本：3.6 程式碼如下 import json from multiprocessing.pool import Pool from requests.exceptions impo

Python爬蟲-爬取貓眼電影Top100榜單

貓眼電影的網站html組成十分簡單。地址就是很簡單的offset=x 這個x引數更改即可翻頁。下面的資訊使用正則表示式很快就可以得出結果。直接放程式碼： import json

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

來源： https://zhuanlan.zhihu.com/c_149865214對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，戀習Python的手把手系列，手把手教你入門Python爬蟲，爬取貓眼電影TOP100榜資訊，將涉及到

python爬取貓眼電影 top 100 儲存到CSV

開啟是個執行緒，把迴圈事件匯入到執行緒中。 import threading from bs4 import BeautifulSoup import requests, csv from lxml i

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

上次利用pyquery爬取貓眼電影TOP100榜單內容的爬蟲程式碼中點選開啟連結存在幾個不合理點。1. 第一個就是自定義的create_file（檔案存在判斷及建立）函式。我在後來的python檔案功能相關學習中，發現這個自定義函式屬於重複造輪子功能。因為 for data

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

python爬取貓眼電影資訊

爬取TOP100所有電影的資訊,(電影名, 主演，上映時間) 爬取該電影的宣傳封面的圖片, 儲存到本地/mnt/img/目錄中; 將獲取的資訊, 儲存到mysql資料庫中(電影名, 主演，上映時間, 封面圖片的本地路徑) import re #<

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

Python爬取貓眼電影Ｔop100

import requests import re # 抓取貓眼TOP100的資料 # 第一步：下載頁面 #0-100: 0,10,20,...,90 #http://maoyan.com/board/4?offset=90 def get_one_page(url):

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

python爬取糗事百科資料並儲存到sqlite中，命令列讀出

import requests import sqlite3 from bs4 import BeautifulSoup class QSBK: def __init__(self): self.page=0 self.items=[

Python3爬取貓眼電影榜並將資料存入MySql

直接上程式碼： #coding=utf-8 import re import time import pymysql import requests from requests.exceptions import RequestException from bs4 import Beautif

爬取貓眼電影前100名（獲取圖片並記錄名字跟排名）

簡述程式碼實現上，這個可以說是不難的。但是需要注意的是，這裡的有一些細節得注意一下。協程的，gevent.joinall() 需要的是一個可以迭代的物件，但是內容必須是gevent.spawn

python爬蟲實戰-爬取貓眼電影榜單top100

貓眼電影是靜態網頁,並且不需要驗證碼,非常適合爬蟲的入門練習,流程如下-通過url連接獲取html內容,在html中通過正則表示式,我們提取排名,名稱,主演,上映時間等資訊,格式如下["9", "魂斷藍橋", "主演：費雯·麗,羅伯特·泰勒,露塞爾·沃特森", "上映時間：1

爬取貓眼電影榜單的top100並輸出csv檔案

#!/usr/bin/env python # -*- coding:utf-8 -*- #encoding = utf-8 import json import pandas as pd import requests from gevent.pool im

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

Python爬取貓眼電影100榜並儲存到excel表格

相關推薦