爬取豆瓣電影短評並使用詞雲簡單分析top50

阿新 • • 發佈：2018-11-21

先使用程序池爬取豆瓣電影短評

import requests 
import re
import random
import time
import pandas as pd
from pymongo import MongoClient
from multiprocessing import Pool
from fake_useragent import *

#簡單反反爬措施,使用多個UA
ua = UserAgent()


#連線mongo資料庫
conn = MongoClient('localhost')
db =conn.spyder
myset = db.douban


def get_db(page):
    #隨機獲取UA抓取資料並判斷狀態碼
    headers = {"User-Agent":random.choice(ua)}
    url ="https://movie.douban.com/subject/26752088/comments?start={}&limit=20&sort=new_score&status=P".format(page*20)
    req = requests.get(url,headers=headers)
    req.encoding ="utf-8"
    
    if req.status_code ==200:
        print("第%s頁爬取成功"%str(page+1))
    else:
        print("第%s頁爬取失敗"%str(page+1))
    result = req.text
    # 將目標HTML使用正則表示式篩選資訊並使用yield返回
    pattern =re.compile('<a href="https://www.douban.com/people/[\s\S]*?" class="">([\s\S]*?)</a>[\s\S]*?<span class="short">([\s\S]*?)</span>')
    rf = re.findall(pattern,result)
    for i in rf:
        yield {'name':i[0].strip(),
               'content':i[1].strip()}
        
def save_to_mongo(file):
    """
    插入資料庫

    """
    if myset.insert(file):
        print('插入成功')
    else:
        print('失敗')

def main(page):
    """
    主函式

    """
    for file in get_db(page):
        save_to_mongo(file)


if __name__ =="__main__":
    #使用程序池提速抓取,可以考慮sleep
    pool = Pool()
    pool.map(main,[i for i in range(50)])
    pool.close()
    pool.join()

將資料從資料庫取出並生成詞雲

import jieba
from wordcloud import WordCloud
import pymongo
import matplotlib.pyplot as mp
from jieba import  analyse

text = None
with pymongo.MongoClient('localhost') as client:
    #獲取集合
    db = client.spyder
    myset = db.douban
    #列印資料庫總評論數
    print('count:',myset.estimated_document_count())
    cursor = myset.find()

    #遍歷資料,這裡只遍歷短評數
    text = ''.join(map(lambda doc:doc.get('content'),cursor))


#對短語資料文字分詞
#新增自定義分詞
[jieba.add_word(k) for k in []]

#取Top50的詞生成詞雲
tags = analyse.extract_tags(text,topK=50,withWeight=False)

new_text = ' '.join(tags)
print(new_text)

#對分詞文字生成詞雲
#生成詞雲,需要指定中文字型,否則無法生成中文詞雲
image=mp.imread('./wc.jpg')

wc = WordCloud(
    #設定背景色,預設黑色
    # background_color = 'white',
    #設定詞雲最大單詞數
    max_words=200,
    #設定詞雲中字號最大值
    #max_font_size = 80,
    #設定詞雲圖片寬,高,
    # mask=image,
    width=768,
    height=1024,
    #設定詞雲檔案字型(美化和解決中文亂碼問題)
    font_path='STZHONGS.TTF'
).generate(new_text)

#繪圖(標準長方形圖)
mp.imshow(wc,cmap='rainbow',interpolation='bilinear')
mp.figure('db.wordcloud')
mp.axis('off')
#將圖片輸出到檔案
# wc.to_file(r'./images/wc.png')

mp.show()

生成圖片可以明顯知道哪些高頻詞語

爬取豆瓣電影短評並使用詞雲簡單分析top50

先使用程序池爬取豆瓣電影短評 import requests import re import random import time import pandas as pd from pymongo import MongoClient from multiprocessing import

scrapy-redis爬取豆瓣電影短評，使用詞雲wordcloud展示

1、資料是使用scrapy-redis爬取的，存放在redis裡面，爬取的是最近大熱電影《海王》 2、使用了jieba中文分詞解析庫 3、使用了停用詞stopwords，過濾掉一些無意義的詞 4、使用matplotlib+wordcloud繪圖展示 from redis import Redis impor

關於html的多行匹配，正則re.S的使用（爬取豆瓣電影短評）

htm detail 3.1 port encoding 關於 color tel frame 參考鏈接：http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括號) 　　　　

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

本次實驗主要測試使用PyMySQL庫寫資料進MySQL，爬取資料使用XPATH和正則表示式，在很多場合可以用XPATH提取資料，但有些資料項在網頁中沒有明顯特徵，用正則表示式反而反而更輕鬆獲取資料。直接上程式碼：from lxml import etree impo

Scrapy實戰篇（三）之爬取豆瓣電影短評

地址 pad __init__ {} 爬取 opera -m range pytho 今天的主要內容是爬取豆瓣電影短評，看一下網友是怎麽評價最近的電影的，方便我們以後的分析，以以下三部電影：二十二，戰狼，三生三世十裏桃花為例。由於豆瓣短評網頁比較簡單，且不存在動態加載的內

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

ray 爬取 open tex 下載頁面 down app zhong form 前段時間做了一個關於豆瓣電影的爬蟲，之後又寫了一個陳奕迅歌詞的詞雲制作，於是我想不如做一個關於豆瓣高分電影導演的詞雲試試，於是有了接下來這篇隨筆。首先，我需要知道豆瓣top100電影詳情頁面

python爬蟲，Scrapy爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。

專案github地址：https://github.com/kocor01/scrapy_cloud Python版本為3.6 自己寫的簡單架構《python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。》這個是用Scrapy框架重新實現的爬蟲

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

專案github地址：https://github.com/kocor01/spider_cloub/ Python版本為3.6 最近突然想玩玩雲圖，動手寫了個簡單的爬蟲，搭建了簡單的爬蟲架構爬蟲爬取最近比較火的電影《芳華》分詞後生成雲圖使用了 jieba分詞，雲圖用word

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

團隊-爬取豆瓣電影TOP250-需求分析

影評鏈接 lock 分析 strong str 需求分析豆瓣信息團隊-爬取豆瓣電影TOP250-需求分析需求:爬取豆瓣電影TOP250 *向用戶展示電影的排名,分數,名字,簡介,導演,演員,前10條影評信息,鏈接信息實現思路: 分析豆瓣電影TOP250

《團隊-爬取豆瓣電影TOP250-需求分析》

round ack 地址 align wid ica san pad ext 需求： 1.搜集相關電影網址 2.實現相關邏輯的代碼項目步驟： 1.通過豆瓣網搜索關鍵字，獲取相關地址 2.根據第三方包實現相關邏輯《團隊-爬取豆瓣電影TOP250-需求分析》

團隊-爬取豆瓣電影TOP250-開發環境搭建過程

技術團隊 img mage www. 9.png 官網下載 har image 從官網下載安裝包（http://www.python.org）。安裝Python 選擇安裝路徑（我選的默認）安裝Pycharm 1.從官網下載安裝包（ht

《團隊-爬取豆瓣電影TOP250-設計文檔》

python top 賬號集成開發環境 python3 搭建環境電影 settings 解耦搭建環境：　　1.安裝python3.4　　2.安裝pycharm集成開發環境　　3.安裝Git for Windows　　4.安裝python第三方包 bs4開發階段：　　1

團隊-爬取豆瓣電影-設計文檔

常用不一致 spider 其他所有功能 sch pytho awl 團隊成員：　　張曉亮，邵文強，寧培強，潘新宇，邵翰慶，李國峰，張立新概要設計思路（https://github.com/Wooden-Robot/scrapy-tutorial）：　　　　　聲明

爬取豆瓣電影短評並使用詞雲簡單分析top50

相關推薦