詞雲分析的進一步理解

阿新 • • 發佈：2018-11-01

豆瓣電影
豆瓣評論分析:
1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊；
2). 清洗資料；
3). 分析每個電影評論資訊分析繪製成詞雲，儲存為png圖片，檔名為: 電影名.png;

import requests
from bs4 import BeautifulSoup
import re
import jieba
import wordcloud
import numpy
from PIL import Image
from concurrent.futures import ThreadPoolExecutor

def get_movie(url):
    response=requests.get(url)
    content=response.text
    soup=BeautifulSoup(content,'html.parser')
    nowplaying_movie_list=soup.find_all('li',class_='list-item')
    movies_info=[]
    for item in nowplaying_movie_list:
        nowplaying_movie_dict = {}
        nowplaying_movie_dict['title']=item['data-title']
        nowplaying_movie_dict['id']=item['id']
        movies_info.append(nowplaying_movie_dict)
    return movies_info

def get_info(id,pageNum):
    start=20*(pageNum-1)
    url='https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P' %(id,start)
    content=requests.get(url).text
    soup=BeautifulSoup(content,'html.parser')
    commentsList=soup.find_all('span',class_='short')
    comments=''
    for commentTag in commentsList:
        comments+=commentTag.text
    return comments

def word_cloud(comment,name):
    pattern = re.compile(r'([\u4e00-\u9fa5]+|[a-zA-Z]+)')
    deal_comments = re.findall(pattern, comment)
    newComments = ''
    for item in deal_comments:
        newComments += item
    result = jieba.lcut(newComments)
    imageObj = Image.open('./image.jpg')
    cloud_mask = numpy.array(imageObj)
    wc = wordcloud.WordCloud(
        background_color='snow',
        mask=cloud_mask,
        font_path='./msyh.ttf',
        min_font_size=5,
        max_font_size=50,
        width=260,
        height=260,
    )
    wc.generate(','.join(result))
    wc.to_file('./img/%s.png' % (name))

def main():
    url = 'https://movie.douban.com/cinema/nowplaying/xian/'
    movie_id=get_movie(url)
    for dict in movie_id:
        id=dict['id']
        name=dict['title']
        for page in range(1,10):
            pool = ThreadPoolExecutor(max_workers=10)
            comment=pool.map(get_info(id,page))
            word_cloud(comment,name)


main()

慕客網
爬取慕客網所有關於python的課程名及描述資訊，並通過詞雲進行分析展示;
- 網址: https://www.imooc.com/search/course?words=python

import re
import requests
from bs4 import BeautifulSoup
import jieba
import numpy
from PIL import Image
import wordcloud

def get_html(url):
    return requests.get(url).text

def get_name(text):
    soup = BeautifulSoup(text, 'html5lib')
    nametag_li = soup.find_all('div', class_="course-item-detail")
    info_li = []
    for i in nametag_li:
        info = {}
        i = re.findall(r'[\u4E00-\u9FA5]+',str(i))
        info['name'] = i[0]
        info['info'] = i[1:]
        info_li.append(info)
    return info_li

def word_cloud(text):
    imgobj = Image.open('./image.jpg')
    cloud_mask = numpy.array(imgobj)
    result = jieba.lcut(text)
    wc = wordcloud.WordCloud(
        width=500,
        mask=cloud_mask,
        max_font_size=50,
        min_font_size=5,
        background_color='snow',
        font_path = './msyh.ttf',
    )
    wc.generate(','.join(result))
    wc.to_file('./muke.png')


def main():
    li = []
    for i in range(2):
        url = 'https://www.imooc.com/search/course?words=python&page=%d' %(i+1)
        info = get_name(get_html(url))
        for j in info:
            li.append(j['name'])
            li.append(''.join(j['info']))
    word_cloud(''.join(li))

main()

執行結果：
在這裡插入圖片描述

python爬取今日百度熱點前10的新聞

from bs4 import BeautifulSoup
from urllib.request import urlopen


def get_html(url):
    a = urlopen(url).read().decode('gb2312')
    return a


def get_info(text):
    soup = BeautifulSoup(text, 'html5lib')
    info_li = soup.find_all('a', class_='list-title')
    news_li = [info_li[i].string for i in range(10)]
    return news_li


def main():
    url = 'http://top.baidu.com/buzz?b=341'
    new_li = get_info(get_html(url))
    [print(i) for i in new_li]


main()

執行結果：
在這裡插入圖片描述

詞雲分析的進一步理解

豆瓣電影豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊； 2). 清洗資料； 3). 分析每個電影評論資訊分析繪製成詞雲，儲存為png圖片，檔名為: 電影名.png; import requests from bs4 import Beautifu

Python 詞雲分析周傑倫《晴天》

保存 ron 語言痛徹心扉分析 near spa sim img 一、前言滿天星辰的夜晚，他們相遇了、、、夏天的時候，她慢慢的接近他，關心他，為他付出一切；秋天的時候，兩個人終於如願的在一起，分享一切快樂的時光但終究是快樂時光短暫，因為傑倫必須出國深造，兩人面臨了要分隔

詞雲分析《天龍八部》人物出現次數

出現次數標題 http 春秋 mar -s pen image 背景圖片一.需要的三方庫 1.安裝詞雲: 　　pip install wordcloud 2.安裝結巴　　pip install jieba 3.安裝matplotlib 　　pip install ma

電影評論詞雲分析

需求：將豆瓣電影的評論爬取出來，用詞雲的方式對其進行分析步驟分析： 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗，去除一些不需要的資訊 5). 進行詞雲的分析分析網站的原始碼通過原始碼分析，豆瓣電影是靠

Ubuntu的中文是哪種字型？python的詞雲分析和三國演義人物出場統計

Ubuntu的預設中文是哪種呢？ fc-list :lang=zh 用這個命令查看出來 NotoSerifCJK-Bold.ttc 為什麼要知道這個呢？來看一塊python3程式碼 import jieba import wordcloud f = op

加深詞雲分析

豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊； 2). 清洗資料； 3). 分析每個電影評論資訊分析繪製成詞雲，儲存為png圖片，檔名為: 電影名.png; import requests from bs4 import Beautif

Python入門之電影詞雲分析

需求：將豆瓣電影的評論爬取出來，用詞雲的方式對其進行分析步驟分析： 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗，去除一些不需要的資訊 5). 進行詞雲的分析分析網站的原始碼通過原始碼分

詞雲分析之英文

from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\演算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.r

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

NO.16——Pathon爬取楊超越新浪微博資料做詞雲分析

看到網上充斥著很多詞雲分析的資料，今天心血來潮，也嘗試下詞雲分析。最近熱火的《創造101》，楊超越小姐姐一直在風口浪尖，因此這裡借用小姐姐的微博資料做分析。一、準備工具作詞雲分析主要用到兩個工具： jieba,俗稱結巴，中文分詞工具；wordclo

從安卓手機ROOT提取微信聊天記錄到利用Python進行詞雲分析全過程

剛剛來到了2018年，正值女票生日將近。想想這一年來我倆的聊天記錄也不少（匯出後一看十個月的微信文字聊天記錄將近8萬條 ^-^）,於是就有了將我們的聊天記錄匯出來製作成詞雲，或者分析一下她說的最多的一句話是什麼？還打算做個預測模型，輸入一個句子然後讓模型預測下是她說的還是我說的，哈哈，想想還有點小激

wordcloud詞雲分析及詞頻統計繪圖

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-10-18 17:52:25 # @Author : awakeljw ([email protected]) # @Li

[Python微信開發] 一.itchat入門知識及微信自動回覆、微信簽名詞雲分析

轉自： https://blog.csdn.net/Eastmount/article/details/79618039 最近準備學習微信小程式開發，偶然間看到了python與微信互動的介面itchat，簡單學習了下，感覺還挺有意思的，故寫了篇基礎文章供大家學習。it

python3做詞雲分析

text nts 實踐統計道路 data 形勢 bin 勇氣 python3做詞雲其實詞雲一般分為兩種，一個是權重比，一個是頻次分析主要還是體現在自然語言方向，難度較大，但這裏我們用jieba詞庫主要思路，後端算數據+前端生成圖（D3-cloud-好

如何用Python 製作詞雲-對1000首古詩做詞雲分析

> **公號：碼農充電站pro** > **主頁：** ![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20201212230904594.png?) 今天來介紹一下如何使用 **Python** 製作**詞雲**。詞雲又叫文字雲，它可以統計文字中頻率較高的詞，並將這

[python] 詞雲：wordcloud包的安裝、使用、原理（源碼分析）、中文詞雲生成、代碼重寫

possible 渲染 alias com 表達問題 compute ural pty 詞雲，又稱文字雲、標簽雲，是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現，形成關鍵詞的渲染形成類似雲一樣的彩色圖片，從而一眼就可以領略文本數據的主要表

爬取豆瓣電影短評並使用詞雲簡單分析top50

先使用程序池爬取豆瓣電影短評 import requests import re import random import time import pandas as pd from pymongo import MongoClient from multiprocessing import

微信好友個性標籤詞雲--微信資料分析（四）

簡述程式碼構建詞雲的時候，採用的背景圖生成的效果為：可以發現，我的微信朋友們的雖然表面上看起來一個個都是逗比，但是個性標籤似乎都是慢慢的正能量哇~ 下面使用的時候，我用的是我之前已經打包好

海賊王、火影和死神三大經典動漫，用Python做詞雲視覺化帶你分析

這篇文章，要帶你們去一個神奇的國度，一個可以在二維生活的神奇國度。你準備好了嗎？對於動漫愛好者來說，海賊王、火影、死神三大動漫神作你肯定肯定不陌生了。小編身邊很多的同事仍然深愛著這些經典神作，可見“中毒”至深。今天小編利用Python大法帶大家分析一下這些神作，看看這些神作到底在講些神馬

資料探勘01---文字分析（jieba分詞和詞雲繪製）

一、定義：文字挖掘：從大量文字資料中抽取出有價值的知識，並且利用這些知識重新組織資訊的過程。二、語料庫（Corpus）語料庫是我們要分析的所有文件的集合。 import os import os.path filePaths = [] #定義一個數組變數 #再用

詞雲分析的進一步理解

相關推薦