豆瓣評論資料詞雲畫像（）

阿新 • • 發佈：2018-11-25

'''
#這段程式碼是從一個網`在這裡插入程式碼片`站借用過來的，具體哪個網址一下子忘記了。
#可以直接執行。
'''
from selenium import webdriver
import time
import codecs
import jieba
import jieba.analyse as analyse
from wordcloud import WordCloud
from scipy.misc import imread
from os import path

def get_douban_comments(url):
    # comments_list = [] # 評論列表
    login_url = 'https://accounts.douban.com/login?source=movie'
    user_name = '15527546531'  # 這裡替換成你的豆瓣使用者名稱
    password = '15898405110ABCD'  # 這裡替換成你的密碼
    driver = webdriver.Firefox() # 啟動Firefox()
    driver.get(login_url)
    driver.find_element_by_id('email').clear() # 清除輸入框
    driver.find_element_by_id('email').send_keys(user_name) # 輸入使用者名稱
    driver.find_element_by_id('password').clear()
    driver.find_element_by_id('password').send_keys(password) # 輸入密碼
    captcha_field = input('請開啟瀏覽器輸入驗證碼:') # 手動填入驗證碼
    driver.find_element_by_id('captcha_field').send_keys(captcha_field)
    driver.find_element_by_class_name('btn-submit').click() # 點選登入按鈕
    time.sleep(5) # 等待跳轉到登入之後的頁面
    driver.get(url) # 定位到目標頁面
    driver.implicitly_wait(3) # 智慧等待3秒
    n = 1 # 頁數
    count = 0 # 評論數目
# 注意：下次需要做詞雲的時候 需要重新給一個名字或者吧上次的檔案清空，
    `在這裡插入程式碼片`#因為是新增的模式
    file = codecs.open("pjl_comment.txt",mode='a',encoding='utf-8')


    while True:
        try:
            comments_list = []  # 評論列表
            results = driver.find_elements_by_class_name('comment')
            print("results:",len(results))
            for result in results:
                # print(result)
                # author = result.find_elements_by_tag_name('a')[1].text # 作者
                # vote = result.find_element_by_class_name('comment-vote').find_element_by_tag_name('span').text # 贊同數目
                # time0 = result.find_element_by_class_name('comment-info').find_elements_by_tag_name('span')[1].text # 時間
                comment = result.find_element_by_tag_name('p').text # 評論內容
                print(comment)
                comments_list.append(comment+u'\n')
                print(u"查詢到第%d個評論" % count)
                count += 1
            driver.find_element_by_class_name('next').click() # 點選下一頁
            print( u'第%d頁查詢完畢!' % n)
            n += 1
            time.sleep(2)
            file.writelines(comments_list)
        except Exception() as e:
            print(e)
    # with codecs.open('pjl_comment.txt','a',encoding='utf-8') as f:
    #     f.writelines(comments_list)
    # print(u"查詢到第%d頁,第%d個評論!" %(n,count))


# 得到所有關鍵詞
def get_all_keywords(file_name):
    word_lists = [] # 關鍵詞列表
    with codecs.open(file_name,'r',encoding='utf-8') as f:
        Lists = f.readlines() # 文字列表
        for List in Lists:
            cut_list = list(jieba.cut(List))
            for word in cut_list:
                word_lists.append(word)
    word_lists_set = set(word_lists) # 去除重複元素
    sort_count = []
    word_lists_set = list(word_lists_set)
    length = len(word_lists_set)
    print(u"共有%d個關鍵詞" % length)
    k = 1
    for w in word_lists_set:
        sort_count.append(w+u':'+(word_lists.count(w))+u"次\n")
        print(u"%d---" % k + w+u":"+(word_lists.count(w))+ u"次")
        k += 1
    with codecs.open('count_word.txt','w',encoding='utf-8') as f:
        f.writelines(sort_count)

def get_top_keywords(file_name):
    top_word_lists = [] # 關鍵詞列表
    with codecs.open(file_name,'r',encoding='utf-8') as f:
        texts = f.read() # 讀取整個檔案作為一個字串
        Result = analyse.textrank(texts,topK=20,withWeight=True,withFlag=True)
        n = 1
        for result in Result:
            print(u"%d:" % n )
            for C in result[0]: # result[0] 包含關鍵詞和詞性
                print(C,u"  ")
            print(u"權重:"+ str(result[1])) # 關鍵詞權重
            n += 1



# 繪製詞雲
def draw_wordcloud():
   with codecs.open('pjl_comment.txt',encoding='utf-8') as f:
       comment_text = f.read()
   cut_text = " ".join(jieba.cut(comment_text)) # 將jieba分詞得到的關鍵詞用空格連線成為字串
   d = "E:\\pythonStudy_2\\machine-learning" #當前檔案資料夾所在目錄
   color_mask = imread("E:\\pythonStudy_2\\machine-learning\\tmp.png") # 讀取背景圖片
   cloud = WordCloud(font_path=path.join(d,'simsun.ttc'),background_color='white',mask=color_mask,max_words=2000,max_font_size=40)
   word_cloud = cloud.generate(cut_text) # 產生詞雲
   word_cloud.to_file("pjl_cloud2.jpg")



if __name__ == '__main__':

    url = "https://movie.douban.com/subject/26752088/comments?status=P" # 我不是藥神
    get_douban_comments(url)

    # file_name = 'pjl_comment.txt'
    # get_top_keywords(file_name)

    # draw_wordcloud()

豆瓣評論資料詞雲畫像（）

''' #這段程式碼是從一個網`在這裡插入程式碼片`站借用過來的，具體哪個網址一下子忘記了。 #可以直接執行。 ''' from selenium import webdriver import time import codecs import jieba import jieba.ana

抓取網易雲音樂歌曲熱門評論生成詞雲（轉）

非原創作品，轉載自：http://blog.csdn.net/marksinoberg/article/details/70809830 前言網易雲音樂一直是我向往的“神壇“，聽音樂看到走心的評論的那一刻，高山流水。於是今天來抓取一下歌曲的熱門評論。並做成詞

java詞雲推薦（KUMO）

hello，各位，大年初二，給大家拜年了！今天給大家介紹一下，使用java生成詞雲的方法和框架——KUMO（來自github），KUMO是一款使用java編寫，應用於詞頻分析，詞雲生成的開源技術。不過應用不算廣泛，畢竟現在python生成詞雲wordcloud太方便了，KUM

評論內容詞雲

# coding=utf-8 from wordcloud import WordCloud import jieba import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties from sc

python視覺化進階---seaborn1.8 線性關係資料視覺化 Implot（）

線性關係資料視覺化 1. Implot（）示例1： import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns #設定風格、尺度 sns.se

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

python資料探勘實戰筆記——文字挖掘（4）：詞雲繪製

概念：詞雲：詞雲是指對文字中詞頻較高的分詞，給予視覺上的突出，形成“關鍵詞渲染”，從而過濾掉大量的文字資訊，使瀏覽者一眼掃過就可以領略文字的主旨。需要用到的包：wordcloud、matplotlib wordcloud包下載地址：http://www.l

微信好友個性標籤詞雲--微信資料分析（四）

簡述程式碼構建詞雲的時候，採用的背景圖生成的效果為：可以發現，我的微信朋友們的雖然表面上看起來一個個都是逗比，但是個性標籤似乎都是慢慢的正能量哇~ 下面使用的時候，我用的是我之前已經打包好

資料探勘01---文字分析（jieba分詞和詞雲繪製）

一、定義：文字挖掘：從大量文字資料中抽取出有價值的知識，並且利用這些知識重新組織資訊的過程。二、語料庫（Corpus）語料庫是我們要分析的所有文件的集合。 import os import os.path filePaths = [] #定義一個數組變數 #再用

python畫詞雲圖（電商評論資料）

最近採集了天貓上搜索頁面關於風衣的寶貝資訊以及14676條評論資料。於是就想著做個關於評論資料的詞雲圖看看先來看看效果圖：從上圖可以看出衣服、好、質量、不錯、喜歡等關鍵詞的較大，說明這些

Python語言程式設計（MOOC崇天）第七章檔案和資料格式化學習筆記（自動軌跡繪製+政府工作報告詞雲）

複習：數字型別及操作：字串型別和操作：程式分支結構程式的迴圈結構函式的定義與使用程式碼複用與函式遞迴集合型別及操作序列型別及操作字典型別及操作本週內容：檔案和資料格式化檔案的使用統

關於爬取json內容生成詞雲（瘋狂踩坑）

.sh 動態 cnblogs google 插件 save result json數據 keys 本文爬取了掘金上關於前端前n頁的標題。將文章的標題進行分析，可以看出人們對前端關註的點或者近來的熱點。導入庫 import requests import re from

python（wordcloud）實現中文詞雲

bold pytho 作圖 back 垂直背景數值內置顯示 # 這是一個處理圖像的函數from scipy.misc import imreadfrom wordcloud import WordCloud,STOPWORDS,ImageColorGenerat

[python] 詞雲：wordcloud包的安裝、使用、原理（源碼分析）、中文詞雲生成、代碼重寫

possible 渲染 alias com 表達問題 compute ural pty 詞雲，又稱文字雲、標簽雲，是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現，形成關鍵詞的渲染形成類似雲一樣的彩色圖片，從而一眼就可以領略文本數據的主要表

Matplotlib學習---用wordcloud畫詞雲（Word Cloud）

tps named open 字符等等 png min 其余 https 畫詞雲首先需要安裝wordcloud（生成詞雲）和jieba（中文分詞）。先來說說wordcloud的安裝吧，真是一波三折。首先用pip install wordcloud出現錯誤，說需要安裝

利用豆瓣短評資料生成詞雲

在之前的文章中，我們獲得了豆瓣爬取的短評內容，彙總到了一個檔案中，但是，沒有被利用起來的資料是沒有意義的。前文提到，有一篇微信推文的關於詞雲製作的一個實踐記錄，準備照此試驗一下。思路分析讀檔案利用with open() as...將檔案讀進來。這裡需要注意檔案內容

Python小程式——利用wordcloud庫生成詞雲（二）

wordcloud庫利用wordcloud物件生成詞雲，其中可以配置很多屬性，讓你的詞雲更加個性化。 w_cloud = wordcloud.WordCloud( font_path=font, background_color=None, mode="RGBA", # 背

Python小程式——利用wordcloud庫生成詞雲（一）

最近自學Python的中文處理，其中用到了wordcloud庫生成一篇文章的詞雲，能更直觀的表現出文章的主題，是一個不錯的工具。雖然現在網上有很多詞雲線上生成的應用，不過為了更個性化一點，還是寫一個自己的詞雲生成工具吧。 import jieba import wordcloud from

大資料原理筆記——雲資料庫（二）

Amazon AWS及雲資料庫總體架構圖一、AWS Globle Infra

分散式事務實踐解決資料一致性（雲盤下載）

第1章課程介紹介紹該課程的內容、學習成果、例項，還有學習所需的前提知識。 1-1 導學-分散式事務實踐第2章事務原則與實現介紹了事務的四大原則，並通過例項介紹資料庫實現事務的方法，以及使用JDBC實現事務的方法。 2-1 事務原則與實現：事務 2-2 事務原則與

豆瓣評論資料詞雲畫像（）

相關推薦