python爬取網易雲歌單

阿新 • • 發佈：2018-12-16

背景

這學期報了一門海量資料處理，在資料處理前需要爬取一些內容。所以做了一個小練習，爬取網易雲的歌單。其中包括歌單名稱，播放量和url地址。
網易雲還是具有一些反爬措施的，這裡主要說以下幾個方面以及我的應對措施。

無法直接訪問 我沒有實踐過直接訪問網易雲音樂會不會被報404，所以這一條本質上不太確定的，我的做法是直接在瀏覽器中通過F12檢視請求頭，在程式碼中將請求頭加入其中以此來模擬我是瀏覽器訪問的，但是後期因為使用了PhantomJS，也就不需要請求頭的，後期的時候請求頭就沒有再用了。
動態頁面載入 動態的頁面載入導致正常的頁面爬蟲無法工作，在瀏覽器上看到的很多內容，通過python讀取到html後在內部找不到對應內容。對應的方法是使用PhantomJS。PhantomJS按照我自己的理解，是模擬了一個瀏覽器，這樣子可以最大程度上讓伺服器認為我是普通使用者的瀏覽器，從而防止被反爬。此外上一條中說到使用這個以後不需要再加請求頭也是這個原因，我的身份已經變成了一個瀏覽器，所以也就不需要再使用請求頭來偽裝身份。

PhantomJS效率過低 PhantomJS畢竟是一個瀏覽器，在速度上有很大劣勢，所以在使用時需要對其進行配置。從直觀上來看，就是關閉瀏覽器的圖片載入功能，開啟瀏覽器快取功能等等，所有的配置都和瀏覽器正常設定差不多，其程式碼如下：

service_args=[]
service_args.append('--load-images=no')  ##關閉圖片載入
service_args.append('--disk-cache=yes')  ##開啟快取
service_args.append('--ignore-ssl-errors=true') ##忽略https錯誤

部分頁面需要滾輪下拉才能顯示更多內容

我的讀取方式是讀取使用者的個人主頁，其中包括‘自建歌單’以及‘收藏歌單’。可以點選https://music.163.com/#/user/home?id=113975098看到。爬蟲對自建歌單以及收藏歌單都進行爬取，一個使用者爬取完後，在收藏歌單中隨機找一個歌單進去，進入後是歌單內容詳情，此時點選上方的作者，再次連結到該作者的個人主頁，繼續爬取自建歌單以及收藏歌單。但是部分使用者會自建很多歌單，這樣導致收藏歌單不會直接顯示，在瀏覽器中需要滾輪下滑才能繼續載入，這就導致程式不能夠讀取到收藏歌單，也就不能繼續爬取了。這裡有兩種方法，一種是通過F12分析滾輪下滑後發出的請求，在程式中發出該請求就可以讀取到後續列表。老實說，這是我第一次爬頁面，之前對html從來沒有過了解，此外馬上就要交作業了，簡單看了看頁面以後，決定用一種偷懶的方法去解決它。我每次對一個使用者的所有收藏歌單都讀取到以後，將所有歌單的url讀取到並存在一個list內部。爬完一個使用者後，在list內部隨機找到一個url作為下一個爬取物件，同時將該url在list內刪除。當爬取到某個頁面無法找到收藏歌單時，從該list內部再隨機拿取一個重新進行分析。這裡有一個bug，假如很多使用者都沒有收藏歌單，剩餘使用者有很少的收藏歌單時，某一次執行中可能會出現list為空的情況，也就沒有url可以用來分析了。另外盲目地擴充list對於記憶體的佔用也是一大筆開銷。但是對於2000條歌單的課程要求來說足夠了。實際上我爬了一萬條歌單，執行正常。

以下是結果：

在這裡插入圖片描述

程式碼

from selenium import webdriver
import csv
import random
import os

#讀取檔案 若檔案不存在則新建檔案 同時寫入表頭
if os.path.exists('playList.csv'):
    csvFile = open('playList.csv', 'a+', newline='', encoding="utf-8")
    writer = csv.writer(csvFile)
else:
    csvFile = open('playList.csv', 'a+', newline='', encoding="utf-8")
    writer = csv.writer(csvFile)
    writer.writerow(['標題', '播放數', '連結'])

#配置PhantomJS，提綱爬取速度
service_args=[]
service_args.append('--load-images=no')  ##關閉圖片載入
service_args.append('--disk-cache=yes')  ##開啟快取
service_args.append('--ignore-ssl-errors=true') ##忽略https錯誤


playUrl = 'https://music.163.com/#/user/home?id=1320157310'
runCnt = 0                      #程式執行次數計數
cPlayerList = []                #url列表 噹噹前url不合適時，從內部隨機取出一個繼續爬取
while runCnt < 10000:            #爬取兩千條記錄
    driver = webdriver.PhantomJS("D:\Python\Python37\Scripts\phantomjs.exe", service_args=service_args)
    print(playUrl)              #列印當前爬取的url
    driver.get(playUrl)         #獲取連結
    try:                        #在網頁中若出現錯誤及時捕獲
        #-----------------讀取使用者自建歌單-------------------
        driver.switch_to.frame('contentFrame')
        data = driver.find_element_by_id('cBox').find_elements_by_tag_name('li')
        for i in range(len(data)):
            nb = data[i].find_element_by_class_name('nb').text
            msk = data[i].find_element_by_css_selector('a.msk')
            writer.writerow([msk.get_attribute('title'),
                            nb, msk.get_attribute('href')])
            runCnt += 1
            print('runCnt:', runCnt)

        #-----------------讀取使用者收藏歌單-------------------
        data = driver.find_element_by_id('sBox').find_elements_by_tag_name('li')
        for i in range(len(data)):
            nb = data[i].find_element_by_class_name('nb').text
            nb.replace(u'\xa0', u' ');
            msk = data[i].find_element_by_css_selector('a.msk')
            #UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 2: illegal multibyte sequence
            #csvFile = open('playList.csv', 'w', newline='', encoding="utf-8")
            writer.writerow([msk.get_attribute('title'),
                            nb, msk.get_attribute('href')])
            runCnt += 1
            print('runCnt:', runCnt)
            cPlayerList.append(msk.get_attribute('href'))

        #從url列表中隨機讀取一個作為下一爬取的url
        randIndex = int(random.uniform(0, len(cPlayerList)))
        playUrl = cPlayerList[randIndex]
        del cPlayerList[randIndex]      #列表中取走後需要在列表中將該url刪除
        #轉到的頁面是歌單的詳細頁面，以下程式碼負責讀取該頁面中的作者頁面，跳轉到作者頁面以便繼續爬取
        driver.get(playUrl)
        driver.switch_to.frame('contentFrame')
        data = driver.find_element_by_id('m-playlist').find_element_by_class_name('cntc').find_element_by_class_name('name')
        playUrl = data.find_element_by_css_selector('a.s-fc7').get_attribute('href')
    except:
        #若出現錯誤，從url列表中繼續取出一個url
        randIndex = int(random.uniform(0, len(cPlayerList)))
        playUrl = cPlayerList[randIndex]
        del cPlayerList[randIndex]
        print('頁面發生異常，取出一個備用url，當前url剩餘：', len(cPlayerList))
        driver.get(playUrl)
        driver.switch_to.frame('contentFrame')
        data = driver.find_element_by_id('m-playlist').find_element_by_class_name('cntc').find_element_by_class_name(
            'name')
        playUrl = data.find_element_by_css_selector('a.s-fc7').get_attribute('href')

插入連結與圖片

以後希望自己能多寫一些機器學習相關的部落格，現在進入研一也有一個多月了，慢慢的更確立了自己的學習方向。對爬蟲有些興趣但不是主要的學習方向，以後可能除非專案需要，否則不太會用爬蟲去爬一些資料。立下flag，以後多寫機器學習。

python爬取網易雲歌單

背景這學期報了一門海量資料處理，在資料處理前需要爬取一些內容。所以做了一個小練習，爬取網易雲的歌單。其中包括歌單名稱，播放量和url地址。網易雲還是具有一些反爬措施的，這裡主要說以下幾個方面以及我的應對措施。無法直接訪問我沒有實踐過直接訪問網易雲音樂

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

工具：python3.6 ，pycharm 開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

Python爬取網易雲音樂歌單內所有歌曲

一、目標：下載網易雲音樂熱門歌單二、用到的模組： requests，multiprocessing，re。三、步驟：（1）頁面分析：首先開啟網易雲音樂，選擇熱門歌單，可以看到以下歌單列表，然後開啟開發者工具本人對於Python學習建立了一個小小的學習圈子，為

python爬取網易雲音樂歌曲評論信息

webkit fun 數據包 cond bubuko ret value selenium apple 　　網易雲音樂是廣大網友喜聞樂見的音樂平臺，區別於別的音樂平臺的最大特點，除了“它比我還懂我的音樂喜好”、“小清新的界面設計”就是它獨有的評論區了——————各種故事匯

python爬取網易雲歌曲資訊及下載連結並簡單展示

我們選取的爬取目標是歌單這一塊兒 chrome瀏覽器 f12抓包經過簡單的解析，拿到歌曲分類名字 create_table_sql = 'create table ’ + i + ‘(id int auto_increment primary key,song_name varch

python爬取網易雲音樂資料

1.首先匯入2個第三方庫，json庫是標準庫，用到的有Requests庫，Beautisoup庫，json庫 2.分析網站，當然是f12 開發者工具了，firefox瀏覽器的開發者工具個人用著比chrome的好用一點。用開發者工具之前要先明白你要找什麼資料，我想抓取的是霹靂布袋戲的

python爬取網易雲音樂，python下載網易雲音樂

import requests import time import os from urllib import request from bs4 import BeautifulSoup import urllib class Wy: page = 0 wymusic = {}

Python爬取網易雲課堂課程資料

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，

用python爬取網易雲音樂，新手看了也能操作

今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編執行過程式碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函式中傳入了歌手ID和歌曲名兩個引數，其實爬取歌曲也是同樣的道理，也需要傳入這兩個引數，只不過網易雲歌曲的

Python爬取網易雲音樂熱門評論

import requests import json def get_hot_comments(res): comments_json = json.loads(res.text) hot_comments = comments_json['hotComm

爬蟲入門——用python爬取網易雲音樂熱門歌手評論數

本文參考Monkey_D_Newdun 的文章用爬蟲獲取網易雲音樂熱門歌手評論數執行平臺：Windows 10IDE：spyderPython版本：3.6瀏覽器：360一、爬蟲基本思路a. 通過URL或者檔案獲取網頁：開啟網頁-F12-找到需要獲取的url，request h

python爬取網易雲音樂評論

前言上篇爬取喜馬拉雅FM音訊的最後也提到過，這回我們爬取的就是網易雲音樂的熱評+評論。本人用了挺久的網易雲，也是非常喜歡…閒話不多說，跟著我的思路來看看如何爬取網易雲的熱評+評論~ 目標本次我們爬取的目標是–網易雲音樂歌曲的熱評以及普通評論我們

利用python爬取網易雲歌手top50歌曲歌詞

python近年來，發展迅速，成為了最炙手可熱的語言。那麼如何來進行網易雲歌手top50的歌曲歌詞爬取呢 1. 首先進行網易雲並進行喜歡的歌手搜尋如下： 2. 搞清楚了連線的問題之後，就要進行BeautifulSoup對網易進行抓取核心程式碼如下： #e

爬取網易雲音樂所有歌單資訊

可以結合下一篇文章實現歌曲下載 python 爬蟲下載網易歌單歌曲使用 python + requests + lxml + selenium 使用 requests 發起請求，獲取到所有分類的 url 使用 selenium 傳送請求取到

爬取網易雲聽歌排行榜歌單制作雲詞

proc ges ase params 網頁 web api .post 想要最近又到了一年一度的年底總結了，網易雲音樂如此退出了年度歌單，又一次被刷朋友圈了。作為程序員，就好奇的想驗證下結論準不準，隨便回顧下爬蟲的操作。首先，打開網頁版網易雲音樂，登錄成功後，進入自己或

如何用Python網絡爬蟲爬取網易雲音樂歌曲

今天 http 分享圖片分享圖片分分鐘參考 down 技術今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python網絡爬蟲爬取網易雲音樂歌詞

網易雲歌詞 Python網絡爬蟲網絡爬蟲前幾天小編給大家分享了數據可視化分析，在文尾提及了網易雲音樂歌詞爬取，今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取源碼；利用bs4解析源碼，獲取歌曲名和歌曲ID；調用網易雲歌曲API，獲取歌詞；將歌詞寫入

python爬取網易雲歌單

背景

以下是結果：

程式碼

插入連結與圖片

相關推薦