爬網易雲音樂評論數的優化歷程

阿新 • • 發佈：2019-02-20

為什麼要爬、怎麼爬就不說了。

首先

我是第一次寫爬蟲。

使用的是Python，且沒有使用爬蟲框架。
僅僅靠requests和beautifulsoup來完成。

作者：軌跡。

方法一：最早使用的方法

爬取過程：
1、模擬請求
2、獲取資料
3、入庫

重複1-3來完成對一首音樂的評論數的爬取。

過程如圖：
pc1
該方法的不足之出在於：
每一次的網路IO都要等待本地IO，每一次的本地IO都要等待網路IO

實際操作時間：
爬100首：
pc1-100

爬500首：
pc1-500

爬5000首：
pc1-5000

我動了動小腦袋瓜，發現事情並沒有這麼簡單：
平均一首需要：0.9秒
那麼爬1,000,000就需要：900,000秒=250小時

=10.4天
就算是個睿智都知道這劃！不！來！

而且，當請求數不斷得增加，即使本地IO保持穩定，但網路IO不好說呀。而且測試時間恰逢下午至晚上，這可能是網易雲音樂伺服器的高峰期，網路IO情況就更不容樂觀了。

根據該方法的不足之處，我又寫了一個方法二。

方法二：方法一的改進，讓請求的只做請求，入庫的只做入庫。

既然方法一的網路IO和本地IO需要互相等待。

不如讓網路IO跑在一個執行緒，本地IO跑在一個執行緒如何？
用FIFO佇列作緩衝？

過程如圖：
這裡寫圖片描述

爬100首：
pc2-100
爬500首：
pc2-500
爬5000首：
pc2-5000

很顯然，時間消耗量下降了不是一點半點。

方法	一	二
100首	61.93 s	38.41 s
500首	445.23 s	418.30 s
5000首	4502.55 s	4974.57 s

方法三：多執行緒請求

在多執行緒上吃了點甜頭之後，發現本地IO的消耗時間總是比網路IO的消耗時間多那麼零點幾秒。也就說，本地IO總是在等待網路IO請求到的資料。

為什麼不多開幾個網路IO的執行緒呢？？

過程：
pc3

等等，這不是生產者消費者問題嗎！！

要不要加寫鎖？要不要加讀鎖？
額不不不，還好Python的Queue自帶鎖，是執行緒安全的！
那就放開寫吧。

2執行緒各爬100：
pc3-2-100
3執行緒各爬100：
pc3-3-100
4執行緒各爬100：
pc3-4-100

8執行緒各爬100：
這裡寫圖片描述

16執行緒各爬100：
pc3-16-100

執行緒數	2	3	4	8	16
每個執行緒各100首	57.04s	63.57s	71.68s	120.43s	239.05s
平均每首	0.285s	0.2119s	0.1792s	0.1505s	0.1494s

很顯然：
當網路IO的執行緒超過8後，提升非常小，可能是因為各網路IO執行緒在等待其他網路IO執行緒的寫入。

最後

以0.15秒每首的速度爬一百萬首，也需要1.73天。真讓人頭疼。。。

爬網易雲音樂評論數的優化歷程

為什麼要爬、怎麼爬就不說了。首先我是第一次寫爬蟲。使用的是Python，且沒有使用爬蟲框架。僅僅靠requests和beautifulsoup來完成。作者：軌跡。方法一：最早使用的方法爬取過程： 1、模擬請求 2、獲取資料 3、

爬取網易雲音樂評論並使用詞雲展示

referer top readlines target ner ads 詞雲 pos 參考最近聽到一首很喜歡的歌，許薇的《我以為》，評論也很有趣，遂有想爬取該歌曲下的所有評論並用詞雲工具展示。我們使用chrome開發者工具，發現歌曲的評論都隱藏在以 R_S

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

網易雲音樂評論爬蟲:爬取全部熱門歌曲及其對應的id號

今天我給大家介紹一下用Python爬取網易雲音樂全部歌手的熱門歌曲.由於歌手個人主頁的網頁原始碼中還嵌入了一個子網頁(框架原始碼裡面包含了我們需要的資訊),因此我們不能使用requests庫來爬取,而使用selenium,接下來,讓我詳細講解整個爬取過程. 一,構造歌手個人

爬取網易雲音樂評論過萬歌曲

看到網上其他同學的思路是爬取所有歌單，然後篩選出評論過萬的歌曲。但我覺得不同歌單之間會有交叉，這種方式可能效率不高，而且可能會有漏網之魚。所以我準備爬取所有歌手，再爬取他們的熱門50單曲，從中篩選評論過萬的歌曲。現階段幾乎沒有歌手有超過50首評論過萬的歌曲，所以

python爬取網易雲音樂評論

前言上篇爬取喜馬拉雅FM音訊的最後也提到過，這回我們爬取的就是網易雲音樂的熱評+評論。本人用了挺久的網易雲，也是非常喜歡…閒話不多說，跟著我的思路來看看如何爬取網易雲的熱評+評論~ 目標本次我們爬取的目標是–網易雲音樂歌曲的熱評以及普通評論我們

爬取網易雲音樂評論

Intro 一直想自己動手用框架搭起來一個搜尋引擎，但是也一直不知道從哪裡開始下手比較好。最近一直在網易雲音樂上聽歌，決定從網易雲上把評論全部爬下來，用評論做一個垂直搜尋 Path 說幹就開始吧首先第一步得先把網易雲上的評論爬下來吧，沒有評論

Android ScrollView滾動實現大眾點評、網易雲音樂評論懸停效果

ins schema bar 音樂 layout mage for bin andro 今天聽著網易雲音樂，寫著代碼，真是爽翻了。 http://blog.csdn.net/linshijun33/article/details/47910833 網

網易雲音樂評論爬蟲（2）：歌曲的全部評論

ima cbc 原理分析 nbsp oss 處理 oop win 接下來用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處

網易雲音樂評論抓取及生成詞雲

在csdn首頁上偶然看到了這個話題，然而那篇文章並沒有分詞，而且只有首頁的評論，找了相關的資料，都不能直接執行。 # -*- coding: utf-8 -*- """ Created on Tue May 2 09:34:33 2017 http://blog.csdn.net/

Python 網易雲音樂評論爬蟲

引言之前網易雲音樂和農夫山泉合作，將熱門評論印在農夫山泉上引爆了朋友圈。於是想爬取一下網易雲的評論。網上搜了一下，對於網易雲評論的爬蟲不少，主要參考這篇文章：對網易雲音樂引數（params，encSecKey）的分析。在此基礎上，添加了爬取雲音樂飆升榜中歌曲，再去爬取這些歌曲的評

網易雲音樂評論爬蟲(1)：全部熱門歌曲及其 id 號

今天我給大家介紹一下用Python爬取網易雲音樂全部歌手的熱門歌曲.由於歌手個人主頁的網頁原始碼中還嵌入了一個子網頁(框架原始碼裡面包含了我們需要的資訊),因此我們不能使用requests庫來爬取,而使用selenium,接下來,讓我詳細講解整個爬取過程. 一,構造歌手個人主

網易雲音樂評論催淚刷屏？我用Python抓取了1008328條熱評告訴你為什麼！

如果再過20年，你還會記得那些年上過的網易雲熱評嗎？看了那麼多的網易雲熱評，技術思維作祟，我終於

遮蔽煩人的網易雲音樂評論區（附防頹小技巧）

UPD:這個可以遮蔽掉貼吧qq空間防頹廢原先使用網易雲覺得評論區很有趣，但有些睿智評論也會使人特別火大 Duan2baka忍無可忍，決定一定要找到一個遮蔽的方法工具原理使用fiddler抓包，把評論遮蔽掉過程 1.在網易雲音樂設定-工具-Https

網易雲音樂評論爬蟲

用Python爬取網易雲音樂全部歌曲的全部評論.我把它分為三步:第一步獲取全部歌手的資訊及其id號.第二步通過第一步獲取到的歌手id號來獲取全部歌手的全部熱門歌曲及其id號.第三步根據獲取到的歌曲id號來獲取對應歌曲的全部評論. 第一步,獲取全部歌手的資訊及其id號

爬蟲入門——用python爬取網易雲音樂熱門歌手評論數

本文參考Monkey_D_Newdun 的文章用爬蟲獲取網易雲音樂熱門歌手評論數執行平臺：Windows 10IDE：spyderPython版本：3.6瀏覽器：360一、爬蟲基本思路a. 通過URL或者檔案獲取網頁：開啟網頁-F12-找到需要獲取的url，request h

爬取網易雲音樂(包括歌詞和評論)

輸入 random 字節 sim main dal 需要 ssi wow # http://music.163.com/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&off

python爬取網易雲音樂歌曲評論信息

webkit fun 數據包 cond bubuko ret value selenium apple 　　網易雲音樂是廣大網友喜聞樂見的音樂平臺，區別於別的音樂平臺的最大特點，除了“它比我還懂我的音樂喜好”、“小清新的界面設計”就是它獨有的評論區了——————各種故事匯

用selenium進行網易雲音樂進行評論爬取

用selenium進行網易雲音樂進行評論爬取，然後做成詞雲圖這個是抓取刀郎-黃玫瑰的評論詞雲以下是抓取的程式碼，初學者，可能不是很完美，能執行。。呵呵。 #!/usr/bin/python # -*- coding: <encoding name> -*- i

Scrapy爬取網易雲音樂和評論（一、思路分析）

目錄：前提： scrapy這個框架很多人用過，網上教程也很多，但大多就是爬爬小說這種比較簡單且有規律的，網易雲音樂也有很多人寫過，也有API，不過大多是爬取了熱門歌曲，或是從歌單下手，但是考慮到歌單會有很多重複的。當然，從歌手頁的話，如果

爬網易雲音樂評論數的優化歷程

首先

方法一：最早使用的方法

方法二：方法一的改進，讓請求的只做請求，入庫的只做入庫。

方法三：多執行緒請求

最後

相關推薦