python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計

阿新 • • 發佈：2017-08-07

nbsp cnblogs code utf-8 col type callback 結果處理

接上一章，抓取京東評論區內容。

url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1’

重點是productId——產品id、page——頁碼、pageSize：指定每一頁展示多少評論

#coding：utf-8
import requests
import json,time

 
def get_detail(url):
    wbdata = requests.get(url).text
    wbdata = wbdata[25:-2]

    data = json.loads(wbdata)
    news = data[‘comments‘]

    for n in news:
        title = n[‘content‘]    
        print title
        print ‘-‘*20


        
for i in range(30):
    url = ‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page= 
‘ +str(i) +‘&pageSize=10&isShadowSku=0&fold=1‘
#url = ‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1‘
    if requests.get(url).status_code == 200:
        get_detail(url)
        time.sleep( 
10)
        print i

代碼類似，不詳細說明（get、json、數據處理）。

加入time.sleep（10）防止ip被禁。

結果如下：

技術分享

----------------------------------------------------------

想比較直觀的顯示評論重點，因此加入jieba分詞還有wordcloud詞雲（沒有庫的，通過pip install jieba）

import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba,os


text_from_file_with_apath = open(‘sss.txt‘).read()
 
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
 
my_wordcloud = WordCloud().generate(wl_space_split)
 
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

簡陋版詞雲效果。

技術分享

wordcloud 默認使用了DroidSansMono.ttf 字體庫，改一下換成一個支持中文的ttf 字庫，重新運行一下這十行代碼，就可以了。

wordcloud詞雲默認不支持中文，可能會顯示還多矩形框。

解決辦法——改一下換成一個支持中文的ttf 字庫

Python27\Lib\site-packages\wordcloud.py 中的 ---- DroidSansMono.ttf 替換修改為 simfang.ttf

在線詞雲生成網頁：https://wordart.com/create

python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計

nbsp cnblogs code utf-8 col type callback 結果處理接上一章，抓取京東評論區內容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetc

【Python】Windows下用Jieba分詞和WordCloud庫生成中文詞雲

一、開啟Anaconda Prompt，用activate命令啟用環境二、從清華映象下載所需庫： jieba分詞庫 wordcloud繪製詞雲庫 numpy常用於處理陣列 PIL為影象處理標準庫 pip install jieba -i https://pypi

Python爬蟲【五】Scrapy分布式原理筆記

啟動 size inf p s 集合內存運行請求 max Scrapy單機架構在這裏scrapy的核心是scrapy引擎，它通過裏面的一個調度器來調度一個request的隊列，將request發給downloader，然後來執行request請求但是這些requ

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

目錄 1.Intro 2.Details 3.Theory 4.Environment and Configuration 5.Automation 6.Conclusion 1.Intro 作為Python的擁蹩，開源支持者，深信Python大

[Python] [爬蟲] 10.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——排程引擎

目錄 1.Intro 2.Source 1.Intro 檔名：scheduleEngine.py 模組名：排程引擎引用庫： random time gc os sys date

[Python] [爬蟲] 9.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——爬蟲日誌

目錄 1.Intro 2.Source 1.Intro 檔名：spiderLog.py 模組名：爬蟲日誌引用庫： logging 功能：日誌寫入到文字，包含普通訊息、警告、錯誤、異常等，可以跟蹤爬蟲執行過程。 &nb

[Python] [爬蟲] 8.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料推送模組

目錄 1.Intro 2.Source (1)dataPusher (2)dataPusher_HTML 1.Intro 檔名：dataPusher.py、dataPusher_HTML.py 模組名：資料推送模組引用庫： smtpl

[Python] [爬蟲] 7.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料處理器

目錄 1.Intro 2.Source 1.Intro 檔名：dataDisposer.py 模組名：資料處理器引用庫： pymongo datetime time sys

[Python] [爬蟲] 6.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁解析器

目錄 1.Intro 2.Source 1.Intro 檔名：pageResolver.py 模組名：網頁解析器引用庫： re lxml datetime sys retry

[Python] [爬蟲] 5.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁下載器

目錄 1.Intro 2.Source 1.Intro 檔名：pageDownloader.py 模組名：網頁下載器引用庫： selenium random sys socket tim

[Python] [爬蟲] 4.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——配置管理器

目錄 1.Intro 2.Source 1.Intro 檔名：configManager.py 模組名：配置管理器引用庫：None 功能：儲存爬蟲相關配置資訊，如資料庫配置、資料表名、網站URL、報頭等。 2.Source #!/usr/bin/env Py

[Python] [爬蟲] 3.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——代理池

目錄 1.Intro 2.Source 1.Intro 檔名：proxyPool.py 模組名：代理池引用庫： requests urllib2 lxml scrapy pymongo

[Python] [爬蟲] 2.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——驗證模組

目錄 1.Intro 2.Source 1.Intro 檔名：authentication.py 模組名：驗證模組引用庫： urllib2 requests pymongo socket

python爬蟲7——XPath與lxml類庫、xpath helper外掛

有同學說，我正則用的不好，處理HTML文件很累，有沒有其他的方法？有！那就是XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Marku

Python爬蟲豆瓣讀書評分9分以上榜單

有了上次的經驗，這次爬豆瓣讀書評分9分以上榜單，連結豆瓣讀書評分9分以上榜單。開啟連結，檢視網頁原始碼，查詢我們需要的資訊的欄位標籤，本次以書名、評分、評價人數、圖片、出版社、出版日期、ISBN編號為目標，分別進行處理、獲取並儲存。（當然最根本的前提依然是通過url獲取到

Python 爬蟲實戰汽車某家(五) 口碑、評分

文章目錄一、專案結構二、核心類程式碼爬取內容 1、使用者口碑明細評分 2、口碑標題、發表日期、口碑推薦級別 3、購車目的 4、購車價格 5、購車經銷商一、專案結構 point.txt 為斷點

python爬蟲scrapy專案詳解（關注、持續更新）

python爬蟲scrapy專案（一）　　爬取目標：騰訊招聘網站（起始url：https://hr.tencent.com/position.php?keywords=&tid=0&start）　　爬取內容：職位；職位型別；招聘人數；工作地點；釋出時間；招聘詳細連結；工作職責；工作要求

[Python] [爬蟲] 11.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——日誌監控

目錄 1.Intro 檔名：log_record.py 模組名：日誌監控引用庫： pymongo 功能：爬蟲執行結果寫入到資料庫的日誌表中，便於檢視每天執行情況，執行失敗時再追溯日誌。 2.Source #!/usr/bin/env pytho

[Python] [爬蟲] 12.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——代理池重建

目錄 1.Intro 檔名：rebuild_proxy.py 模組名：代理池重建引用庫： pymongo random 自定義引用檔案：proxyPool、configManager 功能：清空代理池，重新爬取代理，提高代理可用性。 2.So

python爬蟲scrapy專案詳解（關注、持續更新）！

爬取目標：騰訊招聘網站（起始url：https://hr.tencent.com/position.php?keywords=&tid=0&start）爬取內容：職位；職位型別；招聘人數；工作地點；釋出時間；招聘詳細連結；工作職責；工作要求反反爬措施：設定隨機user-a

python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計

相關推薦