爬取貓眼電影榜單Top100

阿新 • • 發佈：2019-02-02

廢話不多說，直接上程式碼

import json
import requests
from requests.exceptions import RequestException
import re

def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return 
 None

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)'
                         '</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>'
                         '.*?fraction">(.*?)</i>.*?</dd>' 
,re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield{
            'index':item[0],
            'image':item[1],
            'name':item[2],
            'actor':item[3].strip()[3:],
            'time':item[4].strip()[5:],
            'score':item[5]+item[6]
        }

def write_to_file 
(content):#將爬取到的電影資訊儲存到本地資料夾
    with open('result.txt','a',encoding='utf-8') as f:#將編碼格式設定為utf-8
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
        f.close()

def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    for i in range(10):
        main(i*10)

python爬蟲實戰-爬取貓眼電影榜單top100

貓眼電影是靜態網頁,並且不需要驗證碼,非常適合爬蟲的入門練習,流程如下-通過url連接獲取html內容,在html中通過正則表示式,我們提取排名,名稱,主演,上映時間等資訊,格式如下["9", "魂斷藍橋", "主演：費雯·麗,羅伯特·泰勒,露塞爾·沃特森", "上映時間：1

爬取貓眼電影榜單Top100

廢話不多說，直接上程式碼 import json import requests from requests.exceptions import RequestException import re def get_one_page(url): tr

爬取貓眼電影榜單的top100並輸出csv檔案

#!/usr/bin/env python # -*- coding:utf-8 -*- #encoding = utf-8 import json import pandas as pd import requests from gevent.pool im

爬取貓眼電影榜單之實現定時任務

起因是今天在擴充套件爬蟲的時候，想實現定時爬蟲的功能於是今天就先用Python中自帶的sched模組來實現一下：實現定時任務 # -*-coding:utf-8 -*- import os import time import sched from basic.crawl

Python3爬取貓眼電影榜並將資料存入MySql

直接上程式碼： #coding=utf-8 import re import time import pymysql import requests from requests.exceptions import RequestException from bs4 import Beautif

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

Python爬蟲-爬取貓眼電影Top100榜單

貓眼電影的網站html組成十分簡單。地址就是很簡單的offset=x 這個x引數更改即可翻頁。下面的資訊使用正則表示式很快就可以得出結果。直接放程式碼： import json

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

上次利用pyquery爬取貓眼電影TOP100榜單內容的爬蟲程式碼中點選開啟連結存在幾個不合理點。1. 第一個就是自定義的create_file（檔案存在判斷及建立）函式。我在後來的python檔案功能相關學習中，發現這個自定義函式屬於重複造輪子功能。因為 for data

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

來源： https://zhuanlan.zhihu.com/c_149865214對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，戀習Python的手把手系列，手把手教你入門Python爬蟲，爬取貓眼電影TOP100榜資訊，將涉及到

python爬取貓眼電影top100榜

python版本：3.6 程式碼如下 import json from multiprocessing.pool import Pool from requests.exceptions impo

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

一起學爬蟲——使用xpath庫爬取貓眼電影國內票房榜

之前分享了一篇使用requests庫爬取豆瓣電影250的文章，今天繼續分享使用xpath爬取貓眼電影熱播口碑榜 XPATH語法 XPATH(XML Path Language)是一門用於從XML檔案中查詢資訊的語言。通用適用於從HTML檔案中查詢資料。工欲善其事必先利其器，我們首先來了解XPATH常用的語法

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

爬蟲練習 | 爬取貓眼電影Top100

#coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozil

python爬蟲，爬取貓眼電影top100

import requests from bs4 import BeautifulSoup url_list = [] all_name = [] all_num = [] all_actor = [] all_score = [] class Product_url():

爬取貓眼電影榜單Top100

相關推薦