python scrapy 豆瓣爬蟲及詞雲

阿新 • • 發佈：2020-12-28

沒事弄著玩的，爬取的是電影《流浪貓鮑勃》的電影評價，說是有1W多評價，實際只有500條左右，估計是引用的也算進去了

用的是python scrapy框架，安裝部分就省略了

import time

import scrapy
from scrapy.selector import Selector
from ..items import DoubanItem

# 模擬請求頭
headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/subject/26685451/comments?start=500&limit=20&status=P&sort=new_score']
    number = 0

    def parse(self, response):
        item = DoubanItem()
        for v in response.xpath(
                '//div[@class="comment-item "]/div[@class="comment"]'):
            item['name'] = v.xpath('h3/span[@class="comment-info"]/a/text()').get()
            item['time'] = str.strip(
                v.xpath('h3/span[@class="comment-info"]/span[@class="comment-time "]/text()').get())
            item['evaluate'] = v.xpath('p[@class=" comment-content"]/span[@class="short"]/text()').get()
            item['star'] = v.css("span").xpath('@title').get()
            yield item
        next_link_end = response.xpath("//div[@class='center']/a[@class='next']/@href").get()
        next_link = response.xpath("//div[@class='center']/a[@class='next']/text()").get()
        if next_link == '後頁 >':
            time.sleep(1)
            self.number = self.number + 20
            next_like = 'https://movie.douban.com/subject/26685451/comments' + next_link_end
            yield scrapy.Request(url=next_like, callback=self.parse, headers={
                'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
                "Referer": "https://movie.douban.com/subject/26685451/comments?start={}&limit=20&status=P&sort=new_score".format(
                    self.number),
                "Cookie": '你的cookie'})  # 豆瓣有限制，沒登入只等爬取200條左右的資料

items.py檔案

import scrapy
class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    time = scrapy.Field()
    star = scrapy.Field()
    evaluate = scrapy.Field()
    pass



　啟動命令scrapy crawl quotes -o list.csv 直接儲存為list.csv檔案


後續我把檔案存進了資料庫，通過資料庫讀取的

#! /usr/bin/env python
# -*- coding:utf-8 -*-
import pymysql, jieba, re
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

conn = pymysql.connect(host='*', user='root', passwd="*", db='demo', port=3306, charset='utf8')
cur = conn.cursor(cursor=pymysql.cursors.DictCursor)
sql = "select * from douban"
cur.execute(sql)
cur.close()
conn.close()
# 將列表中的資料轉換為字串
allComment = ''
for v in cur.fetchall():
    allComment = allComment + v['evaluate'].strip(" ")

# 使用正則表示式去除標點符號
pattern = re.compile(r'[\u4e00-\u9fa5]+')
filterdata = re.findall(pattern, allComment)
cleaned_comments = ''.join(filterdata)

# 使用結巴分詞進行中文分詞
segment = jieba.lcut(cleaned_comments)
comment = pd.DataFrame({'segment': segment})

# 去掉停用詞 chineseStopWords.txt 自己網上下m,qu 
stopwords = pd.read_csv("./chineseStopWords.txt", index_col=False, quoting=3, sep="\t",
                        names=['stopword'], encoding='GBK')

comment = comment[~comment.segment.isin(stopwords.stopword)]

# 統計詞頻
comment_fre = comment.groupby(by='segment').agg(
    計數=pd.NamedAgg(column='segment', aggfunc='size')).reset_index().sort_values(
    by='計數', ascending=False)
# 用詞雲進行顯示

wordcloud = WordCloud(
    font_path="你的檔案地址/simhei.ttf",
    background_color="white", max_font_size=80)
word_frequence = {x[0]: x[1] for x in comment_fre.head(1000).values}

word_frequence_list = []
for key in word_frequence:
    temp = (key, word_frequence[key])
    word_frequence_list.append(temp)
wordcloud = wordcloud.fit_words(dict(word_frequence_list))
plt.imshow(wordcloud)
plt.show()


最終結果

python scrapy 豆瓣爬蟲及詞雲

沒事弄著玩的，爬取的是電影《流浪貓鮑勃》的電影評價，說是有1W多評價，實際只有500條左右，估計是引用的也算進去了用的是python scrapy框架，安裝部分就省略了import timeimport scrapyfrom scrapy.selector impor

Python資料視覺化：詞雲庫的講解和如何製作詞雲

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python資料視覺化初步-詞雲實踐

背景今天學習了詞語的使用藉機研究了資料視覺化資料視覺化在大資料分析工具和軟體中提到的資料視覺化，就是利用運用計算機圖形學、影象、人機互動等技術，將採集或模擬的資料對映為可識別的圖形、影象。

Python爬蟲之js加密破解，抓取網易雲音樂評論生成詞雲

js破解歷程前言技能點介面概況靜態網頁動態網頁頁面解析 step1：找引數step2：分析js函式step3：分析引數step4：校驗step5：轉為python程式碼

python爬蟲-爬蟲電影八佰詞雲

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python網路爬蟲課程設計——嗶哩嗶哩彈幕爬取+地圖詞雲

一、選題背景在大資料的時代，人們的物質生活提升了很多，對視訊的播放內容，都有自己獨特的簡介，因而在視訊中，會被某個視訊，進行評論，此專案，就是抓取B站視訊評論，並使用詞雲圖進行展示。

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

前言利用Python爬取並簡單分析A股公司資料。讓我們愉塊地開始吧~ 開發工具 Python版本：3.6.4

Python scrapy增量爬取例項及實現過程解析

這篇文章主要介紹了Python scrapy增量爬取例項及實現過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python生成詞雲的實現程式碼

1 概述利用Python生成簡單的詞雲,需要的工具是cython,wordcloud與anaconda. 2 準備工作

python詞雲庫wordcloud的使用方法與例項詳解

wordcloud是優秀的詞雲展示第三方庫一、基本使用 import jieba import wordcloud txt = open(\"1.txt\",\"r\",encoding=\'utf-8\').read()

python詞雲庫wordCloud使用方法詳解(解決中文亂碼)

文章中的例子主要借鑑wordColud的examples，在文章對examples中的例子做了一些改動。

Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

本文例項講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

Python基於jieba, wordcloud庫生成中文詞雲

程式碼如下 import wordcloud import jieba font = r\'C:\\Windows\\Fonts\\simfang.ttf\' w = wordcloud.WordCloud(height = 700,width = 1000,font_path=font,\\

基於Python詞雲分析政府工作報告關鍵詞

前言十三屆全國人大三次會議作了政府工作報告。這份政府工作報告僅有10500字左右，據悉是改革開放40年以來最短的一次。受到疫情影響，今年的兩會會議適當縮短，政府工作報告也大幅壓縮，體現了“實幹為要”的理念。

Python Scrapy圖片爬取原理及程式碼例項

1.在爬蟲檔案中只需要解析提取出圖片地址，然後將地址提交給管道在管道檔案對圖片進行下載和持久化儲存

爬蟲:python採集豆瓣影評資訊並進行資料分析

前言：最近比較有時間，替一個同學完成了一個簡單的爬蟲和資料分析任務，具體的要求是爬取復仇者聯盟4 的豆瓣影評資訊並進行簡單的資料分析，這裡的資料分析指的是提取關鍵詞並進行詞雲分析以及按照時間進行熱度分析

爬取資料分析——將豆瓣電影top250以詞雲的方式展現

根據爬取到的豆瓣top250電影資訊，根據一句話概述，首先使用jieba分詞工具進行分詞，再使用wordcloud進行詞雲展示

<Python> python從入門到實踐（實踐篇）（1） --詞雲製作

實現詞雲製作需要用到wordcloud庫 wordcloud庫的使用 wordcloud是優秀的詞雲展示第三方庫

python中使用wordcloud庫生成詞雲

需要安裝的第三方庫： pip install -i https://pypi.douban.com/simple wordcloud pip install -i https://pypi.douban.com/simple jieba

python讀取excel製作柱狀圖和詞雲圖片

問題描述需要將excel中的一列內容轉換成柱狀圖和詞雲，所以用到了matplotlib/xlrd/wordcloud三個庫來解決問題

python scrapy 豆瓣爬蟲及詞雲

相關推薦