python爬取豆瓣影評

阿新 • • 發佈：2018-12-18

看的別人的程式碼爬取某部影片的影評沒有模擬登入只能爬6頁

# -*- encoding:utf-8 -*-

import requests
from bs4 import BeautifulSoup
import re
import random
import  io
import  sys
import time

# 使用session來儲存登陸資訊
s = requests.session()


# 獲取動態ip，防止ip被封
def get_ip_list(url, headers):
    web_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)
    return ip_list


# 隨機從動態ip連結串列中選擇一條ip
def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies



# 獲取評論內容和下一頁連結
def get_data(html):
    soup = BeautifulSoup(html, "lxml")
    comment_list = soup.select('.comment > p')
    next_page = soup.select('.next')[0].get('href')
    return comment_list, next_page


if __name__ == "__main__":
    sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')
    absolute = 'https://movie.douban.com/subject/26322642/comments'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'}
    loginUrl = 'https://www.douban.com/accounts/login?source=movie'
    formData = {
        "redir": "https://movie.douban.com/subject/26322642/comments?start=201&limit=20&sort=new_score&status=P&percent_type=",
        "form_email": " 
[email protected]",
        "form_password": "yyf15997588668",
        "login": u'登入'
    }
    # 獲取動態ip
    url = 'http://www.xicidaili.com/nn/'
    ip_list = get_ip_list(url, headers=headers)
    proxies = get_random_ip(ip_list)

    current_page = absolute
    next_page = ""
    comment_list = []
    temp_list = []
    num = 0
    ans = 0
    while (1):
        ans+=1
        print("爬取第" + str(ans) + "頁")
        time.sleep(5)
        html = s.get(current_page,  headers=headers, proxies=proxies).content
        temp_list, next_page = get_data(html)

        if ans is 7:
            break
        current_page = absolute + next_page
        comment_list = comment_list + temp_list
        # time.sleep(1 + float(random.randint(1, 100)) / 20)
        num = num + 1
        # 每20次更新一次ip
        if num % 20 == 0:
            proxies = get_random_ip(ip_list)
        print(current_page)
        # 將爬取的評論寫入txt檔案中
        with open("F:\comments.txt", 'a')as f:
            ark = 0
            for node in comment_list:
                comment = node.get_text().strip().replace("\n", "")
                f.write(comment + "\n")
                ark += 1
                print("寫了" + str(ark) + "個")
            f.close()

python爬取豆瓣影評

看的別人的程式碼爬取某部影片的影評沒有模擬登入只能爬6頁 # -*- encoding:utf-8 -*- import requests from bs4 import BeautifulSoup import re import random import io

[轉載]Python爬取豆瓣影評並生成詞雲圖程式碼

# -*- coding:utf-8 -*- ''' 抓取豆瓣電影某部電影的評論這裡以《我不是潘金蓮為例》網址連結:https://movie.douban.com/subject/26630781/comments 為了抓取全部評論需要先進行登入 '''

（8）Python爬蟲——爬取豆瓣影評資料

利用python爬取豆瓣最受歡迎的影評50條的相關資訊，包括標題,作者,影片名,影片詳情連結,推薦級,迴應數,影評連結,影評,有用數這9項內容，然後將爬取的資訊寫入Excel表中。具體程式碼如下： #!/usr/bin/python # -*- codin

python爬取豆瓣小組700+話題加回復啦啦啦python open file with a variable name

技術分享 ash 寫入 blog ima ron tar 回復 -128 需求：爬取豆瓣小組所有話題（話題title，內容，作者，發布時間），及回復（最佳回復，普通回復，回復_回復，翻頁回復，0回復）解決：1. 先爬取小組下，所有的主題鏈接，通過定位nextp

python爬取豆瓣250存入mongodb全紀錄

xpath author cli content call function 取出 pycha 出版社用了一周的時間總算搞定了，跨過了各種坑，總算調試成功了，記錄如下： 1、首先在cmd中用命令行建立douban爬蟲項目 scrapy startproject douba

python 爬取豆瓣電影案例

數據 odin span content html temp com str self # conding=utf-8 from parse import parse_url import json class DoubanSpider: def __init

詳解使用Python爬取豆瓣短評並繪製詞雲

使用Python爬取豆瓣短評並繪製詞雲成果如下(比較醜，湊合看) 1.分析網頁開啟想要爬取的電影，比如《找到你》，其短評如下: 檢視原始碼發現短評存放在<span>標籤裡並且class為short，所以通過爬取其裡邊的內容即可

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python 爬取豆瓣網搜尋結果同城活動資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 bs4:網頁程式碼解析以下是原始碼： #!coding=utf-8 import requests

教你用Python爬取豆瓣圖書Top250

質量、速度、廉價，選擇其中兩個這篇文章將會用到上一篇文章所講的內容，如果沒有看過可以去看一下教你用Python寫excel 今天我們要做的就是用Python爬取豆瓣圖書Top250，先開啟網站看一下今天不談這豆瓣圖書top250垃圾不垃圾的問題，只看看怎麼用p

Python爬取豆瓣TOP250圖書排行榜

# -*- coding: utf-8 -*- import bs4 import requests def open_url(url): # url = 'https://movie.douban.com/top250' hd = {}

利用Requests庫和正則表示式爬取豆瓣影評Top250

說明最近看了下爬蟲基礎，想寫個部落格來記錄一下，一來是可以方便和我一樣剛入門的小白來參考學習，二來也當做自己的筆記供自己以後查閱。本文章是利用python3.6和Requests庫（需自行安裝，cmd裡執行pip install r

Python 爬取豆瓣

... import urllib.request import time from bs4 import BeautifulSoup def url_open(url): response = urllib.request.urlopen(url) return response

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二豆瓣網影評爬取網頁分析程式碼編寫三資料庫實裝四

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

使用python爬取豆瓣電影圖片（-）

學python沒多久，主要想用它來做爬蟲，寫api建議用node.js,做全站頁面渲染用php搞定，做爬蟲還得看python: 這裡沒有用python的一些爬蟲框架，先採用python內建模組urllib直接處理頁面抓取，然後解析內容然後直接下載圖片：直接抓取豆瓣圖片

python爬取豆瓣電影top250

簡要介紹：爬取豆瓣電影top250上相關電影的資訊，包括影片連結、影片名稱、上映時間、排名、豆瓣評分、導演、劇情簡介。使用：requests、etree、xpath 1、檢視網頁資訊，確定爬取的內容，建立資料庫： class SpiderData(pe

python爬取豆瓣圖書

最近突然想學下爬蟲爬取一下豆瓣的圖書，按類別來爬取並分別儲存，然後就用正則寫了一份初級爬蟲，目前只是分類的頁面爬取，後面完善一下，希望能夠得到每本書的isbn編號，生成自己的資料庫。 # -*- coding:utf-8 -*- import urllib2 import

利用python爬取豆瓣音樂TOP250

最近無所事事，在逼乎看到別人爬取了豆瓣電影，發現挺適合我這菜雞練練手所以我來爬音樂。。 #對不起豆瓣，又是爬你。。目標網站：https://music.douban.com/top250?start=0 首先正常瀏覽分析網頁開啟網址，點選下一頁，發現網站URL變成

python爬取豆瓣影評

相關推薦