豆瓣電影資訊爬取並儲存到excel

阿新 • • 發佈：2019-01-31

import re

import openpyxl
import requests
from bs4 import BeautifulSoup


class Movie(object):
    def __init__(self, title, href):
        self.title = title
        self.href = href

    def set_director(self, director):
        self.director = director

    def get_director(self):
        return 
 self.director

    def set_actor(self, actor):
        self.actor = actor

    def get_actor(self, ):
        return self.actor

    def set_type(self, type):
        self.type = type

    def get_type(self):
        return self.type

    def set_region(self, region):
        self.region = region

    def 
 get_region(self):
        return self.region

    def set_year(self, year):
        self.year = year

    def get_year(self):
        return self.year


url = "https://www.douban.com/doulist/3936288/?start=%s"
urls = []
pages = 10
for i in range(pages):
    urls.append(url % (i * 25))

titles = []
urlElems = []
lists = []
for 
 index in range(pages):
    res = requests.get(urls[index])
    soup = BeautifulSoup(str(res.content, "utf-8"), 'html.parser')
    urlElems.extend(soup.select('.doulist-subject'))

for i in range(len(urlElems)):
    strurl = urlElems[i].select('.title a')
    title_content = re.findall(re.compile('target="_blank">\s+(.*)\s+</a>'), str(strurl))[0]
    href_content = re.findall(re.compile('href="(.*)?"\s'), str(strurl))[0]
    str_abstract = urlElems[i].select('.abstract')[0]
    str_list = str_abstract.get_text().split("\n")
    movie = Movie(title_content, href_content)
    for ss in str_list:
        movie.director = str_list[2]
        movie.actor = str_list[4]
        movie.type = str_list[6]
        movie.region = str_list[8]
        movie.year = str_list[10]
    lists.append(movie)

wb = openpyxl.Workbook()
sheet = wb.get_active_sheet()
for i in range(len(lists)):
    movie = lists[i]
    sheet.cell(row=i + 1, column=1).value = movie.title
    sheet.cell(row=i + 1, column=2).value = movie.href
    sheet.cell(row=i + 1, column=3).value = movie.director
    sheet.cell(row=i + 1, column=4).value = movie.actor
    sheet.cell(row=i + 1, column=5).value = movie.type
    sheet.cell(row=i + 1, column=6).value = movie.region
    sheet.cell(row=i + 1, column=7).value = movie.year
wb.save("douban.xlsx")
print("ok")

豆瓣電影資訊爬取並儲存到excel

import re import openpyxl import requests from bs4 import BeautifulSoup class Movie(object): def __init__(self, title, h

豆瓣電影top250爬取並保存在MongoDB裏

表名 title sta class tinc IV 邏輯運算符取出 mov 首先回顧一下MongoDB的基本操作：數據庫，集合，文檔 db,show dbs,use 數據庫名,drop 數據庫 db.集合名.insert({}) db.集合名.update({條

豆瓣電影簡易爬取

art import tag [1] data htm rtt imp () #coding=utf-8 import urllib2 from HTMLParser import HTMLParser class HttpParser(HTMLParser):

神級python碼農教你爬取並儲存百度雲資源，你懂得~

網路爬蟲又被稱為網路機器人，網頁蜘蛛，在FOAF社群中間稱為網頁追逐者。是按照一定的規則，自動抓取資訊的程式或者指令碼。這篇文章主要介紹Python爬蟲框實戰之抓取並儲存百度雲資源！免費給廣大python愛好者提供資源！）尋找並分析百度雲的轉存api 首先你得有一個

利用Python3對網易的某個話題進行爬取並儲存圖片到本地

__author__ = 'tom' import urllib.request import json import time baseDir = '/Users/tom/netease/{0}' request = 'http://url.163.com/{0}

scrapy框架下的豆瓣電影評論爬取以及登入，以及生成詞雲和柱狀圖

由於豆瓣在今年5月份已經禁止展示所有短評，只展示最熱的500條資料，並且在爬取到240條的時候，如果沒有登入的話，會提示登入。因此幾天的爬蟲，包括豆瓣的自動登入和資料爬取後批量存入pymysql資料庫。在這個爬蟲完成後，其實我也在頁面上找了下，在全部評論

Scrapy爬取並儲存到TXT檔案

在建立完成專案並建立爬蟲的基礎上，編寫儲存到TXT的專案 0.設定setting檔案 1.將 ROBOTSTXT_OBEY 設定為false 2.將 ITEM_PIPELINES 開啟 1.定義items.py資料容器 item是Scrapy提供的類似於字典型別的資

豆瓣電影Top250爬取的資料的一些簡單視覺化筆記

豆瓣Top250網址將之前爬取到的豆瓣電影進行簡單的視覺化：資料列表儲存為CSV格式，如圖 #!-*- coding:utf-8 -*- import pandas as pd import numpy as np import matplot

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

Python自定義豆瓣電影種類，排行，點評的爬取與儲存（進階上）

Python 2.7 IDE Pycharm 5.0.3 Firefox 47.0.1 想了想，還是稍微人性化一點，做個成品GUI出來起因沒辦法，在知乎預告了要做個GUI出來，吹的牛逼總得自己填坑，下次一定要慎重啊，話說也複習了一下G

python爬取豆瓣電影資訊

''' 用到的主要知識：(詳情見官方文件） 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

Python爬蟲入門 | 2 爬取豆瓣電影資訊

這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步瞭解爬蟲，跟著課程內容能自己爬取資源。看著文章，開啟電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 好啦，正式開始我們的第二節課《爬取豆瓣電影資訊

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

中國大學MOOC課程資訊爬取與資料儲存

寫在前面暑假沒事玩玩爬蟲，看到中國大學MOOC便想爬取它所有課程資訊。無奈，它不是靜態網頁，課程資料都是動態載入的。而爬取動態頁面目前來說有兩種方法：分析頁面Ajax請求 selenium模擬瀏覽器行為可能方

python爬取資料儲存為Excel格式

#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import xlrd import xlwt from xlutils.copy impo

python簡單爬蟲：爬取並統計自己部落格頁面的資訊（一）

1. 什麼是爬蟲也叫網路爬蟲，簡單來說，爬蟲就是從一個根網站出發，根據某種規則獲得更多的相關網站的url，自動下載這些網頁並自動解析這些網頁的內容，從中獲取需要的資料。例如爬取某種圖片、某類文字資訊等。爬蟲還可以用於編纂搜尋引擎的網路索引。爬蟲所涉及的知

pyspider 爬豆瓣電影資訊

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2015-11-23 10:50:38 # Project: doubanmovie from pyspider.libs.base_handler import * impo

豆瓣電影資訊爬取並儲存到excel

相關推薦