爬取貓眼電影榜單的top100並輸出csv檔案

阿新 • • 發佈：2019-02-20

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
#encoding = utf-8
import json
import pandas as pd
import requests
from gevent.pool import Pool
from requests.exceptions import RequestException
import re
import csv


def get_one_page(url):
    try:
        hd = {'user-agent':'Chrome/10'}
        response = requests.get(url, headers=hd)
        if 
  response.status_code==200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>' 

                          +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'id':item[0],
            'image':item[1],
            'title':item[2],
            'actor':item[3].strip()[3 
:],
            'time':item[4].strip()[5:],
            'score':item[5]+item[6]
        }

def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')

def main():
    con_list = []
    for i in range(10):
        url = 'http://maoyan.com/board/4?offset=' + str(i*10)
        html = get_one_page(url)
    # parse_one_page(html)
    # print(html)
        for item in parse_one_page(html):
            con_list.append(item)
        # print(item)
        # write_to_file(item) #寫入到txt檔案中
    print(con_list)#測試是否為[{}{}...]檔案
    df = pd.DataFrame(con_list, columns=['id', 'image', 'title', 'actor', 'time', 'score'])
    # print(df)# 輸出pandas結果集
    df.to_csv('./myfir.csv', index=False, encoding='utf_8_sig')

if __name__ == '__main__':
    main()
    # for i in range(10):
        # pool =Pool()
        # pool.map(main, [i*10 for i in range(10)])
    # 將陣列中的每個元素提取出來當作函式的引數，建立一個個程序，放進程序池中
    # 第一個引數是函式，第二個引數是一個迭代器，將迭代器中的數字作為引數依次傳入函式中

python爬蟲實戰-爬取貓眼電影榜單top100

貓眼電影是靜態網頁,並且不需要驗證碼,非常適合爬蟲的入門練習,流程如下-通過url連接獲取html內容,在html中通過正則表示式,我們提取排名,名稱,主演,上映時間等資訊,格式如下["9", "魂斷藍橋", "主演：費雯·麗,羅伯特·泰勒,露塞爾·沃特森", "上映時間：1

爬取貓眼電影榜單Top100

廢話不多說，直接上程式碼 import json import requests from requests.exceptions import RequestException import re def get_one_page(url): tr

爬取貓眼電影榜單的top100並輸出csv檔案

#!/usr/bin/env python # -*- coding:utf-8 -*- #encoding = utf-8 import json import pandas as pd import requests from gevent.pool im

爬取貓眼電影榜單之實現定時任務

起因是今天在擴充套件爬蟲的時候，想實現定時爬蟲的功能於是今天就先用Python中自帶的sched模組來實現一下：實現定時任務 # -*-coding:utf-8 -*- import os import time import sched from basic.crawl

Python3爬取貓眼電影榜並將資料存入MySql

直接上程式碼： #coding=utf-8 import re import time import pymysql import requests from requests.exceptions import RequestException from bs4 import Beautif

使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫

使用scrapy框架爬取貓眼電影爬取全部的頁數 import scrapy,re from jobmaoyan.items import JobmaoyanItem class MaoyanSpider(scrapy.Spider): name = '

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

Python爬蟲-爬取貓眼電影Top100榜單

貓眼電影的網站html組成十分簡單。地址就是很簡單的offset=x 這個x引數更改即可翻頁。下面的資訊使用正則表示式很快就可以得出結果。直接放程式碼： import json

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

上次利用pyquery爬取貓眼電影TOP100榜單內容的爬蟲程式碼中點選開啟連結存在幾個不合理點。1. 第一個就是自定義的create_file（檔案存在判斷及建立）函式。我在後來的python檔案功能相關學習中，發現這個自定義函式屬於重複造輪子功能。因為 for data

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

來源： https://zhuanlan.zhihu.com/c_149865214對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，戀習Python的手把手系列，手把手教你入門Python爬蟲，爬取貓眼電影TOP100榜資訊，將涉及到

python爬取貓眼電影top100榜

python版本：3.6 程式碼如下 import json from multiprocessing.pool import Pool from requests.exceptions impo

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

Python爬取貓眼電影100榜並儲存到excel表格

首先我們前期要匯入的第三方類庫有; 通過貓眼電影100榜的原始碼可以看到很有規律如: 亦或者是: 根據規律我們可以得到非貪婪的正則表示式 """<

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

爬取貓眼電影榜單的top100並輸出csv檔案

相關推薦