反貪風暴4-貓眼影評從爬取到可視化

阿新 • • 發佈：2019-04-30

ffffff 而且 hidden pro 請求 -a nts dcloud ech

我感覺學習python有一個階段就是熟悉它的各種第三方庫的使用，這次我們用jieba分詞，用wordcloud生成詞雲，用pyecharts生成柱狀圖，來看看吧~

若您有需要，所有文件已上傳到我的github（左上角圖標直達）~

從爬蟲開始好了，貓眼電影電腦網頁版只能看熱門影評。其實為了獲取更多影評我們可以這樣做，瀏覽器內按f12打開開發者工具，選擇手機瀏覽模式，刷新後就會是手機版的網頁了。如圖：

技術分享圖片

然後查找接口，頁面往下拉...em...很容易就找到了，是這個技術分享圖片

這是一個js發起的get請求，看鏈接可以知道參數有

movieId:1211727#電影id

userId:-1#用戶id，我猜是我沒有登錄所以為-1
offset:0#控制返回的影評的位置，最主要的一條
limit:15#一次返回15條影評
ts:0#時間戳？不確定
type:3#類型

我們偽造這一條請求就能直接獲得影評了，而且返回是json格式，甚至都不用整理數據了

爬蟲代碼：

import requests
import json


headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Linux; Android 5.1.1; MI 6  Build/NMF26X) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/39.0.0.0 Mobile Safari/537.36 TitansX/11.14.7 KNB/1.2.0 android/5.1.1 com.sankuai.moviepro/com.sankuai.moviepro/5.4.4 App/10a20/5.4.4 com.sankuai.moviepro/5.4.4 
‘,
}

def get_one(offset):
    url = ‘https://m.maoyan.com/review/v2/comments.json?‘
    params = {
        ‘movieId‘: ‘1211727‘,
        ‘userId‘: ‘-1‘,    
        ‘offset‘: offset,  #offset控制傳來第幾頁數據
        ‘limit‘: ‘15‘,
        ‘ts‘: ‘0‘,
        ‘type‘: ‘3‘,
    }
    r = requests.get(url=url,params=params,verify=False)  # 
verify=False為避免ssl認證,防止訪問https時報錯,這裏假設所有訪問都會正常，沒有加容錯機制。
    js = json.loads(r.text)  #將返回的json轉為字典類型
    with open(‘fantan4.json‘,‘a‘,encoding=‘utf-8‘) as f:
        json.dump({"items":js[‘data‘][‘comments‘]}, f, ensure_ascii=False, sort_keys=True, indent=4)  #寫獲取的所有詳情到json文件中
        f.write(‘,‘)  #這裏加一個‘,‘是為了之後將json文件格式改造正確所用
    comments = []
    for dic in js[‘data‘][‘comments‘]:
        comments.append(dic[‘content‘])  #這裏獲取每條影評到列表
    str1 = ‘ ‘.join(comments)  #影評列表轉字符串以‘ ‘分開
    print(str1)
    with open(‘com.txt‘,‘a‘,encoding=‘utf-8‘) as f:
        f.write(str1)  #單獨寫入影評到文件，用於詞雲的生成
for i in range(0,67):
    print(i)
    get_one(i*15)

保存的json我自己增加了一個鍵‘all’並以[]包含了所有的值，如圖：

技術分享圖片

數據都準備好了就開始畫圖啦~先用評論按詞頻生成詞雲看看吧~這是做蒙版的圖（自己扣出來的，羽化有點嚴重，請不要在意這些細節~~）：技術分享圖片

生成的詞雲：

生成詞雲的代碼：

from os import path     #組織文件路徑
from PIL import Image   #處理傳入的背景圖
#詞雲生成模塊
from wordcloud import WordCloud,ImageColorGenerator
import matplotlib.pyplot as plt
import jieba     #中文分詞
import numpy as np
#中文處理
import matplotlib.font_manager as fm
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘utf-8‘)
#背景圖
bg = np.array(Image.open(‘1.jpg‘))

#獲取當前項目路徑
dir = path.dirname(__file__)

#添加自定義的分詞
jieba.add_word(‘古天樂‘)
jieba.add_word(‘林峰‘)
jieba.add_word(‘反貪‘)
#一些詞要去除，停用詞表
stopwords_path=‘stopwords.txt‘

#文本的名稱
text_path=‘com.txt‘

#讀取要分析的文本
text = open(path.join(dir,text_path),encoding=‘utf-8‘).read()

#函數，用於分詞
def jiebaClearText(text):
    #空列表，將已經去除的停用詞的分詞保存
    myWordList = []
    #分詞
    seg_list = jieba.cut(text,cut_all=False)
    #seg_list類型是generator
    #將每個generator的內容用/連接
    listStr = ‘/‘.join(seg_list)
    #停用表
    f_stop = open(stopwords_path,encoding=‘utf-8‘)
    #讀取
    try:
        f_stop_text = f_stop.read()
    finally:
        f_stop.close()
    #停用詞格式化，用\n分開(因為原來文件裏一行一個停用詞),返回一列表

    f_stop_seg_list = f_stop_text.split(‘\n‘)
    #將用‘/‘結合的內容分開並去重用於去掉停用詞

    bookList=listStr.split(‘/‘)

    #默認模式遍歷，去掉停用詞
    for myword in bookList :
        #去掉停用詞，邏輯：若內容不在停用詞列表且長度>1則收錄
        if not ((myword.split())) in f_stop_seg_list and len(myword.strip())>1:
            myWordList.append(myword)
    return myWordList
text1 = jiebaClearText(text)

#計算詞頻
frequency = {}
for i in text1:
    print(i)
    if i in frequency:
        frequency[i]+=1
    else:
        frequency[i]=1

print(frequency)
#生成
wc = WordCloud(
    background_color = ‘white‘,   #背景色
    max_words = 300,  #最大顯示詞數
    mask = bg,    #圖片背景
    min_font_size=6,  # 字最大尺寸
    max_font_size = 100,   #字最大尺寸
    random_state = 42,
    font_path=‘C:/Windows/Fonts/simkai.ttf‘ #字體
).fit_words(frequency)

#為圖片設置字體
my_font = fm.FontProperties(fname=‘C:/Windows/Fonts/simkai.ttf‘)

#產生背景圖片，基於彩色圖像的顏色生成器
image_colors = ImageColorGenerator(bg)
#畫圖
plt.imshow(wc.recolor(color_func=image_colors))

#為雲圖去掉坐標軸
plt.axis(‘off‘)
#畫雲圖，顯示
plt.figure()
#為背景圖去掉坐標軸
plt.axis(‘off‘)
plt.imshow(bg,cmap=plt.cm.gray)

#保存
wc.to_file(‘man.png‘)

最後給出pyecarts生成柱狀圖的代碼：

from pyecharts import Bar
import json


#用於記錄不同性別的打分
all = {0:[0,0,0,],1:[0,0,0,],2:[0,0,0,],3:[0,0,0,],4:[0,0,0,],5:[0,0,0,],6:[0,0,0,],7:[0,0,0,],8:[0,0,0,],9:[0,0,0,],10:[0,0,0,]}
with open(‘fantan4.json‘,‘r‘,encoding=‘utf-8‘) as f:
    js = json.loads(f.read())

for i in js[‘all‘]:
    items = i[‘items‘]
    for details in items:
        score = details[‘score‘]
        #取分數
        gender = details[‘gender‘]
        #取對應性別
        all[score][gender]+=1
        print(all)
male,female,none = zip(all[0],all[1],all[2],all[3],all[4],all[5],all[6],all[7],all[8],all[9],all[10])
#以性別分開數據，這麽做為了將數據轉化滿足pyecharts輸入的要求

attr = [‘0分‘,‘1分‘,‘2分‘,‘3分‘,‘4分‘,‘5分‘,‘6分‘,‘7分‘,‘8分‘,‘9分‘,‘10分‘]
#0為男，1為女，2為未知
bar = Bar("評分",)
bar.add("男性評分", attr, male, is_stack=True)
bar.add("女性評分", attr, female, is_stack=True)
bar.add("未知性別評分", attr, none, is_stack=True)
bar.render(‘1.html‘)

效果（鼠標放上去試試~~）：

女性評分
10分: 189

反貪風暴4-貓眼影評從爬取到可視化

ffffff 而且 hidden pro 請求 -a nts dcloud ech 我感覺學習python有一個階段就是熟悉它的各種第三方庫的使用，這次我們用jieba分詞，用wordcloud生成詞雲，用pyecharts生成柱狀圖，來看看吧~ 若您有需要，所有文件已上

從爬取豆瓣影評到基於樸素貝葉斯的電影評論情感分析(上)

一、爬取豆瓣影評基本思路：先獲取每個電影的評論區連結，然後依次進入其評論區爬取評論。選取10部電影，每部200條評論。用到的包為：BeautifulSoup，urllib 這裡選取的連結為：豆瓣電影，開啟後內容如下：

第4.3章 request爬取小學3000詞語

爬蟲並不是一定要用scrapy框架，下面介紹的這個就是通過requests直接獲取的，程式碼如下生成田字格的程式碼參考第4.1章給小朋友寫的飛鳥集打亂後組詞的爬蟲 import requests import os import re from pyquery

HtmlParser應用,使用Filter從爬取到的網頁中獲取需要的內容

/** * 在文字中通過正則進行匹配 * * @param url 請求處理的url * @param encoding 字元編碼 * @param regex 待匹配的正則表示式 */ publi

java 反編譯知識學習彙總 java網路爬取網頁程式碼

以下文章可能有參考別人的程式碼而彙總的內容請各位大俠合作愉快借鑑一下 http://blog.csdn.net/qq_26891045/article/details/52517585 http://blog.csdn.net/dongnan591

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

奧威數據可視化系統Power-BI 數據分析報告--2017年4月全國彩票銷售情況

彩票 tle 變化 blank 模板制作只需要 width div 4月份全國彩票銷額382.45億元，同比增長9.62%。其中,福利彩票銷額187.24億元，占總比值48.96%，同比增長4.31%；體育彩票銷額195.22億元，占總比值51.04%，同比增長15.

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

2017從零開始學可視化數據分析師就業課程_數據分析師課程

數據分析2017從零開始學可視化數據分析師就業課程學習地址：http://www.xuetuwuyou.com/course/182課程出自學途無憂網：http://www.xuetuwuyou.com本課程由風舞煙老師團隊出品。分9個課程，26章，共計324課時！第一階段、數據分析理論工具基礎篇課程一、數

CNN卷積可視化與反卷積

and code tail level auto adapt where con 可視化 1、《Visualizing and Understanding Convolutional Networks》 2、《Adaptive deconvolutional networ

工業物聯網之從 Modbus 到 Web 數據可視化

提取 return === .com nop 組件應用兩種 sta 前言　　工業物聯網是一個範圍很大的概念，本文從數據可視化的角度介紹了一個最小化的工業物聯網平臺，從 Modbus 數據采集到前端數據可視化呈現的基本實現思路。這裏面主要涉及基於 Modbus 通訊規約

Python爬取拉勾網招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示視覺化分析: 公司地區:柱狀圖,地圖公司待遇:雲圖公司-學歷情況:餅圖公司工作經

4種更快更簡單實現Python數據可視化的方法

刪除 size 一對多刻度明顯 qfile 最終人員 align 數據可視化是數據分析或機器學習項目中十分重要的一環。通常，你需要在項目初期進行探索性的數據分析（EDA），從而對數據有一定的了解，而且創建可視化確實可以使分析的任務更清晰、更容易理解，特別是對於大規模的

信息技術手冊可視化進度報告基於BeautifulSoup框架的python3爬取數據並連接保存到MySQL數據庫

解釋 return oot 進度 mysql recursive div == lec 老師給我們提供了一個word文檔，裏面是一份信息行業熱詞解釋手冊，要求我們把裏面的文字存進數據庫裏面，然後在前臺展示出來。首先面臨的問題是怎麽把數據導進MySQL數據庫，大家都有自己

Android Studio 3.4增可視化資源管理工具可管理和預覽項目資源

water col ase 能夠 ext pan 復雜 enc 更多經過6個月的開發時間，網絡大廠17日發布了最新版的App開發IDE Android Studio 3.4，現在就能夠下載使用，除了有超過300個錯誤修護和穩定度增強之外，在開發、建置和測試App階段，都推

用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)

>原創技術公眾號：`bigsai`,本文在1024釋出，祝大家節日快樂，心想事成。 @[TOC](文章結構) ## 前言在本人上的一門課中，老師對每個小組有個任務要求，介紹和完成一個小模組、工具知識的使用。然而我所在的組剛好遇到的是python爬蟲的小課題。心想這不是很簡單嘛，搞啥呢？想著

Scrapy爬取貓眼《復仇者聯盟4終局之戰》影評

較高的 pytho 必須 save pipeline rate browser 相關 item 一.分析首先簡單介紹一下Scrapy的基本流程：引擎從調度器中取出一個鏈接(URL)用於接下來的抓取引擎把URL封裝成一個請求(Request)傳給下載器

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

Python3爬取起貓眼電影實時票房資訊，解決文字反爬~~~附原始碼

上文解決了起點中文網部分數字反爬的資訊，詳細連結https://www.cnblogs.com/aby321/p/10214123.html 本文研究另一種文字反爬的機制——貓眼電影實時票房反爬雖然都是僅僅在“數字”上設定了反爬，相同點與不同點如下：相同點：在“數字”上設定了文字反爬通過瀏覽器的

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

反貪風暴4-貓眼影評從爬取到可視化

相關推薦