Python爬取豆瓣高分電影前250名

阿新 • • 發佈：2019-03-03

score work format 表頭 amp apple 演員 dir 日期

import requests
import pymysql
import time
import re
import xlwt
from lxml import etree

headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36‘,
          ‘Cookie‘: ‘gr_user_id = c6f58a39 - ea25 - 4f58 - b448 - 545070192c4e;59a81cc7d8c04307ba183d331c373ef6_gr_session_id = e8e4b66f - 440a - 4ae7 - a76a - fe2dd2b34a26;59a81cc7d8c04307ba183d331c373ef6_gr_last_sent_sid_with_cs1 = e8e4b66f - 440a - 4ae7 - a76a - fe2dd2b34a26;59a81cc7d8c04307ba183d331c373ef6_gr_last_sent_cs1 = N % 2FA;59a81cc7d8c04307ba183d331c373ef6_gr_session_id_e8e4b66f - 440a - 4ae7 - a76a - fe2dd2b34a26 = true;grwng_uid = 9ec14ad9 - 5ac0 - 4bb1 - 81c1 - bc60d2685710;abtest_ABTest4SearchDate = b;xzuuid = 79426b52;_uab_collina = 154660443606130958890473;TY_SESSION_ID = 907f32df - c060 - 49ca - b945 - 98215cc03475;rule_math = pvzq3r06hi‘}

conn = pymysql.connect(host= ‘localhost‘,user= ‘root‘,passwd=‘momiao5201314‘,db=‘doubanmovie‘,port=3306,charset=‘utf8‘)
cursor = conn.cursor() #創建光標對象

‘‘‘
# 創建一個workbook設置編碼
workbook = xlwt.Workbook(encoding = ‘utf-8‘)
# 創建一個worksheet
worksheet = workbook.add_sheet(‘My Worksheet‘)
#定義表頭
header = [‘movie_name‘,‘director‘,‘actors,style‘,‘country‘,‘release_time‘,‘time‘,‘score‘]
for h in range(len(header)):
    workbook.write(0,h,header[h])
‘‘‘

def get_movie_url(url):
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    movie_urls = selector.xpath(‘//div[@class="hd"]/a/@href‘)
    for movie_url in movie_urls:
        #print(movie_url)
        get_movie_info(movie_url)

def get_movie_info(url):
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    try:
        movie_name = selector.xpath(‘//*[@id="content"]/h1/span[1]/text()‘)  #1電影名稱
        #print(movie_name)
        director = selector.xpath(‘//*[@id="info"]/span[1]/span[2]/a/text()‘) #2導演
        #print(director)
        actors = selector.xpath(‘//*[@id="info"]/span[3]/span[2]‘)[0]  #Xpath疑問?
        actor = actors.xpath(‘string(.)‘)  #3演員
        #print(actor)
        style = re.findall(‘<span property="v:genre">(.*?)</span>‘,html.text,re.S)[0] + re.findall(‘<span property="v:genre">(.*?)</span>‘,html.text,re.S)[1]  #4類型
        #print(style)
        country = re.findall(‘<span class="pl">制片國家/地區:</span>(.*?)<br/>‘,html.text,re.S) #5制片地區
        #print(country)
        release_time = re.findall(‘上映日期:</span>.*?>(.*?)</span>‘,html.text,re.S) #6上映時間
        #print(release_time)
        time = re.findall(‘<span class="pl">片長:</span>.*?>(.*?)</span>‘,html.text,re.S) #7片長
        #print(time)
        score = selector.xpath(‘//*[@id="interest_sectl"]/div[1]/div[2]/strong/text()‘) #8評分
        #print(score)
        print(str(movie_name))
        #sql = ‘insert into doubanmovie(name,director,actor,style,country,release_time,time,score,) values("{}","{}","{}","{}","{}","{}","{}","{}")‘.format(movie_name,director,actor,style,country,release_time,time,score) #多一個逗號
        cursor.execute("insert into doubanmovie(name,director,actor,style,country,release_time,time,score) values(%s,%s,%s,%s,%s,%s,%s,%s)",(str(movie_name),str(director),str(actor),str(style),str(country),str(release_time),str(time),str(score)))
    except IndexError:
        pass

if __name__ == ‘__main__‘:
    urls = [‘https://movie.douban.com/top250?start={}&filter=‘.format(num)for num in range(0,250,25)]
    for url in urls:
        get_movie_url(url)
        time.sleep(2)
    conn.commit()

技術分享圖片

Python爬取豆瓣高分電影前250名

score work format 表頭 amp apple 演員 dir 日期 import requests import pymysql import time import re import xlwt from lxml import etree headers

爬取豆瓣高分電影榜實例

enc 編碼實例 port ble nbsp 部分 write tps 一、環境　　win7 + python 3.6 二、代碼 import requests from bs4 import BeautifulSoup seq = 0 for preSumCoun

python爬取豆瓣250存入mongodb全紀錄

xpath author cli content call function 取出 pycha 出版社用了一周的時間總算搞定了，跨過了各種坑，總算調試成功了，記錄如下： 1、首先在cmd中用命令行建立douban爬蟲項目 scrapy startproject douba

python 爬取豆瓣電影案例

數據 odin span content html temp com str self # conding=utf-8 from parse import parse_url import json class DoubanSpider: def __init

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

使用python爬取豆瓣電影圖片（-）

學python沒多久，主要想用它來做爬蟲，寫api建議用node.js,做全站頁面渲染用php搞定，做爬蟲還得看python: 這裡沒有用python的一些爬蟲框架，先採用python內建模組urllib直接處理頁面抓取，然後解析內容然後直接下載圖片：直接抓取豆瓣圖片

python爬取豆瓣電影top250

簡要介紹：爬取豆瓣電影top250上相關電影的資訊，包括影片連結、影片名稱、上映時間、排名、豆瓣評分、導演、劇情簡介。使用：requests、etree、xpath 1、檢視網頁資訊，確定爬取的內容，建立資料庫： class SpiderData(pe

用Python爬取豆瓣Top250的電影標題

ive f11 parse www 表達 star import utf-8 各類所以我們可以這麽寫去得到所有頁面的鏈接我們知道標題是在 target="_blank"> 標題的位置</a> 之中所以可以通過正則表達式找到所有符合條

Python爬取豆瓣電影Top250資料

初學pyhton，自己找個練手任務。爬取豆瓣電影top250，儲存為一個DataFrame資料格式，留待分析.(程式碼粗糙，留存） from bs4 import BeautifulSoup from urllib.request import url

用python爬取豆瓣電影TOP250獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。

python小白，第一次爬蟲，如有不對的地方還請多多指出。用BeautifulSoup獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。cur_url：每一頁的地址，例如：https://movie.douban.c

python爬取豆瓣電影資訊

''' 用到的主要知識：(詳情見官方文件） 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

python 爬取豆瓣電影排行榜TOP250 儲存到資料庫或檔案

本篇文章爬取豆瓣電影排行榜，使用的模組：第三方模組requests，正則模組，資料庫MySQL等 import requests import re import pymysql class DouBan: def __init__(self):

python爬取豆瓣小組700+話題加回復啦啦啦python open file with a variable name

技術分享 ash 寫入 blog ima ron tar 回復 -128 需求：爬取豆瓣小組所有話題（話題title，內容，作者，發布時間），及回復（最佳回復，普通回復，回復_回復，翻頁回復，0回復）解決：1. 先爬取小組下，所有的主題鏈接，通過定位nextp

《團隊-爬取豆瓣Top250電影-團隊-階段互評》

溝通爬取 top 負責負責任完成好的電影責任學號：2015035107080得分：9.8原因：認真完成任務，與組員相互溝通交流，相互協作。學號：2015035107152得分：9.6原因：為人誠實謙虛，能吃苦耐勞，敏而好學，積極尋找答案。學號：201503

Python爬取豆瓣高分電影前250名

相關推薦