1. 程式人生 > 實用技巧 >python爬蟲-爬蟲電影八佰詞雲

python爬蟲-爬蟲電影八佰詞雲

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲 作者:使用者7760819

( 想要學習Python?Python學習交流群:1039649593,滿足你的需求,資料都已經上傳群檔案流,可以自行下載!還有海量最新2020python學習資料。 )

python爬蟲-八佰詞雲

概述

豆瓣八佰短評爬蟲

思路

使用正則解析網頁,獲得資料
使用wordcloud繪製詞雲

程式碼
# 資料獲取
import requests
import re
import csv
import
jieba import wordcloud # 通過迴圈實現多頁爬蟲 # 觀察頁面連結規律 # https://movie.douban.com/subject/26754233/comments?start=0&limit=20&sort=new_score&status=P # https://movie.douban.com/subject/26754233/comments?start=20&limit=20&sort=new_score&status=P # https://movie.douban.com/subject/26754233/comments?start=40&limit=20&sort=new_score&status=P
# https://movie.douban.com/subject/26754233/comments?start=60&limit=20&sort=new_score&status=P # 每頁20條從0到後,因此設定迴圈步驟,爬取1000頁 # 備註,高看了,沒有1000頁數,修改 page=[] for i in range(0,80,20): page.append(i) with open (r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\豆瓣八佰爬蟲\短評.csv','a',newline=''
,encoding='utf-8') as f: for i in page: url='https://movie.douban.com/subject/26754233/comments?start='+str(i)+'&limit=20&sort=new_score&status=P' headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0' } resp=requests.get(url,headers=headers) html=resp.text # 解析網頁 res=re.compile('<span class="short">(.*?)</span>') duanpin=re.findall(res,html) # 儲存資料 for duan in duanpin: writer=csv.writer(f) duanpin=[] duanpin.append(duan) writer.writerow(duanpin) # 繪製短評詞雲圖 f = open (r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\豆瓣八佰爬蟲\短評.csv',encoding='utf-8') txt=f.read() txt_list=jieba.lcut(txt) string=' '.join(txt_list) w=wordcloud.WordCloud( width=1000, height=700, background_color='white', font_path="msyh.ttc", scale=15, stopwords={" "}, contour_width=5, contour_color='red' ) w.generate(string) w.to_file(r'D:\360MoveData\Users\cmusunqi\Documents\GitHub\R_and_python\python\豆瓣八佰爬蟲\\八佰.png')

結果


此次爬取的短評資料較少,在網頁的原始碼裡面只有這麼幾條,讓我百思不得其解,感覺是有問題的,可能需要將網頁程式碼轉換為手機資料進行瀏覽,也許可能是本來就那麼幾條,誰知道呢
從詞雲看,八佰還是打著歷史的旗號進行宣發,因此這樣的歷史虛無主義電影,還是別看了,管虎的屁股就沒正過。