python爬取資料熱點詞生成詞雲

阿新 • • 發佈：2018-12-22

這是當時在中國mooc學用python玩轉資料時，寫的一個小demo.

程式實現步驟

1.從某一網站爬取資料，比如我是在豆瓣爬取的書評

利用Requests庫的get()爬取網頁

使用BeatifulSoup庫對爬取網頁進行解析。

寫入檔案

2.對所爬取字串分詞

利用分詞器 jieba ，逐行用jieba分詞，單行程式碼如：

word_list=pseg.cut(subject)

3.去除停用詞

很多如 “的”、“我們”這樣的詞以及一些符號對主題熱點詞分析並沒有用，所以要刪去過濾這些詞。程式碼如：

stop_words =set(line.strip() for line in open('stopwords.txt',encodeing='utf-8'))

4.選擇名詞

jieba中的詞性標籤使用了傳統方式，例如’n’是名詞，’a’是形容詞，’v’是動詞。資料中的名詞更能代表熱點，可以單獨選擇名詞進行後續處理，選擇所有的名詞放到一個列表中的程式碼如下：

        for word, flag in word_list:
            if not word in stop_words and flag == 'n':
                commentlist.append(word)

5.根據詞頻畫出詞雲

將所有名詞直接作為WordCloud()函式的引數，預設WordCloud內部通過統計詞頻對詞進行排序，font_path傳入字型檔案，mask表示詞雲的影象形狀，引數傳入為一個影象

    content = ' '.join(commentlist)
    wordcloud = WordCloud(font_path='simhei.ttf', background_color="grey",  mask=mask_image, max_words=40).generate(content)

完整程式碼

import jieba.posseg as pseg
import matplotlib.pyplot as plt
from os import path
import requests
from scipy.misc import imread
from wordcloud import WordCloud
from bs4 import BeautifulSoup
#本程式對豆瓣圖書評論進行抓取，並得出其關鍵詞
def fetch_douban_comments():#對豆瓣評論進行抓取，並寫入subject檔案
    r = requests.get('https://book.douban.com/subject/1109968/comments/')
    soup = BeautifulSoup(r.text, 'lxml')
    pattern = soup.find_all('p', 'comment-content')
    with open('subjects.txt', 'w', encoding='utf-8') as f:
        for s in pattern:
            f.write(s.string)
def extract_words():
    with open('subjects.txt','r',encoding='utf-8') as f:
        comment_subjects = f.readlines()
    #載入stopword
    stop_words = set(line.strip() for line in open('stopwords.txt', encoding='utf-8'))
    commentlist = []
    for subject in comment_subjects:
        if subject.isspace():continue
        # segment words line by line
        word_list = pseg.cut(subject)#分詞
        for word, flag in word_list:
            if not word in stop_words and flag == 'n':
                commentlist.append(word)
    d = path.dirname(__file__)
    mask_image = imread(path.join(d, "mickey.png"))
    content = ' '.join(commentlist)
    wordcloud = WordCloud(font_path='simhei.ttf', background_color="grey",  mask=mask_image, max_words=40).generate(content)
    # Display the generated image:
    plt.imshow(wordcloud)
    plt.axis("off")
    wordcloud.to_file('wordcloud.jpg')
    plt.show()
if __name__ == "__main__":
    fetch_douban_comments()
    extract_words()

結果：

由於所選mask影象是個米老鼠，所以最後詞雲的形狀是這個樣子

python爬取資料熱點詞生成詞雲

這是當時在中國mooc學用python玩轉資料時，寫的一個小demo. 程式實現步驟 1.從某一網站爬取資料，比如我是在豆瓣爬取的書評利用Requests庫的get()爬取網頁使用BeatifulSoup庫對爬取網頁進行解析。寫入

python 爬取視頻評論生成詞雲圖

爬取評論生成詞雲首先爬取評論寫入文件，用上一篇爬取騰訊是視頻的評論的方法提取評論http://blog.51cto.com/superleedo/2126099 代碼需要稍作修改如下：#!/usr/bin/env python # -*- coding: utf-8 -*- import re import

[轉載]Python爬取豆瓣影評並生成詞雲圖程式碼

# -*- coding:utf-8 -*- ''' 抓取豆瓣電影某部電影的評論這裡以《我不是潘金蓮為例》網址連結:https://movie.douban.com/subject/26630781/comments 為了抓取全部評論需要先進行登入 '''

Python爬取動態說說，生成詞雲，看看朋友的現狀

今天我們要做的事情是使用動態爬蟲來爬取QQ空間的說說，並把這些內容存在txt中，然後讀取出來生成雲圖，這樣可以清晰的看出朋友的狀況。這是好友的QQ空間10年說說內容，基本有一個大致的印象了。爬取動態內容 1.因為動態頁面的內容是動態加載出來的，所以

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

運維開發網絡分析 matplot 容易 jieba 編程語言提示框然而 Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且

詳解使用Python爬取豆瓣短評並繪製詞雲

使用Python爬取豆瓣短評並繪製詞雲成果如下(比較醜，湊合看) 1.分析網頁開啟想要爬取的電影，比如《找到你》，其短評如下: 檢視原始碼發現短評存放在<span>標籤裡並且class為short，所以通過爬取其裡邊的內容即可

python爬豆瓣影評&根據詞頻生成詞雲

python爬豆瓣影評&根據詞頻生成詞雲通過爬取豆瓣上正在上映的電影影評資訊，並根據評論詞頻生成詞雲。一、需要的包import warnings # 防止出現future warning warnings.filterwarnings("ignore") from

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二豆瓣網影評爬取網頁分析程式碼編寫三資料庫實裝四

Python3--批量爬取資料之調金山詞霸api進行翻譯

上程式碼： #/usr/bin/env python3 #coding=utf8 from fake_useragent import UserAgent import http.client import hashlib import urllib import rand

selenium+python爬取資料跳轉網頁

專案要做一個四個層級欄的資料抓取，而且點選查詢後資料會在新跳出的網頁。原始碼如下註釋解釋 from selenium import webdriver import selenium #from time import sleep as sp url='http://202.127.42.15

如何使用Python爬取資料？看完這篇文章你就懂了！

前段時間小編髮了一篇有關於Python資料型別的文章，由於只是介紹了資料型別，我覺得遠遠不夠，所以呢我現在寫一篇用Python爬取資料的文章來補充。首先我會介紹如何使用scrapy抓取二手房資料，然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料，感興趣的朋友可

python爬取資料並將其存入mongodb

其實很早就想知道如何將爬取到的資料存入資料庫，並且實現前後臺的互動功能，昨天剛剛看了一集關於爬資料並存資料的視訊，今天，在這裡總結一下~ 以下為最終所需要爬取的資訊：由於需要爬取所有的二手商品資訊，所以以下內容也要爬取到： 1.先寫一個py檔案，用於爬取上述圖片類目導

python爬取資料儲存為Excel格式

#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import xlrd import xlwt from xlutils.copy impo

python爬取資料hesder設定cookie

#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import pymysql import xlwt import requests imp

xpath的使用方法以及python爬取資料的儲存

前面寫了幾篇關於自己爬蟲時的進度以及遇到的問題，今天系統的爬取了一個網站之後又對爬蟲方法有了更好的認識，所以今天我會盡量用明晰的語言來給大家介紹這些方法。首先說明下我要爬取的內容：http://www.zbj.com/appdingzhikaifa/sq10054601.

python爬取資料（豆瓣上TOP250的電影資訊）初學者必看！！！

python爬取豆瓣上TOP250電影初學python爬蟲。我這裡用的 lxml提取xpath的方式來爬取資料 lxml爬取的速度會比bs4快，所以這裡我選用的lxml 話不多上，趕緊上教程。爬取的思路： 1.獲取網頁解析（有些網頁需要代理） 2.解析完成之

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何人的微博資料都可以製作出來，即使是Python小白也能分分鐘做出來。準備工作本環境基於Python3，理論上Python2.7也是可行的，先安裝必要的第三方依賴包： #

python 根據鏈家爬取的信息生成雲詞

python plot cfi lib 指定技術 with atp ted #-*- coding: utf-8 -*- ‘‘‘ Created on 2017-10-12 @author: wbhuangzhiqiang ‘‘‘ import csv from wo

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

python爬取資料熱點詞生成詞雲

程式實現步驟

1.從某一網站爬取資料，比如我是在豆瓣爬取的書評

2.對所爬取字串分詞

3.去除停用詞

4.選擇名詞

5.根據詞頻畫出詞雲

完整程式碼

結果：

相關推薦