python 爬取某音樂平臺所有歌單資訊

阿新 • • 發佈：2019-02-06

# coding: utf-8
import requests
import os
from lxml import etree
import json
from spider_project.proxies import proxies
import random


class WangYiYunSpider:
    '''爬取所有歌單的資訊'''

    def __init__(self):
        self.root_url = 'http://music.163.com'
        self.start_url = 'http://music.163.com/discover/playlist'
        self.classname_list = []  # 所有小類名
        self.class_url = 'http://music.163.com/discover/playlist/?cat={}'
        self.class_url_list = []  # 所有小類url
        self.playlist_urls = []  # 每一小類所有歌單的url
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
        self.playlist_info = []
        self.classname = ''
        self.proxies = proxies

    def parse_url(self, url=None):
        print(url)
        if url is None:
            resp = requests.get(self.start_url,
                                headers=self.headers,
                                proxies=random.choice(self.proxies)
                                )
        else:
            resp = requests.get(url, headers=self.headers)
        resp.encoding = 'utf-8'
        return resp.text

    def get_cate_name_list(self, html):
        dl_list = html.xpath('//div[@id="cateListBox"]//dl')
        # print(dl_list)
        for dl in dl_list:
            # cate_name = dl.xpath('./dt/text()')[0]
            classname_list = dl.xpath('./dd/a/text()')
            self.classname_list.extend(classname_list)
        # print(self.classname_list)

    def get_class_url(self):
        for classname in self.classname_list:
            self.class_url_list.append(self.class_url.format(classname))

    def get_playlist(self, html):
        '''獲取歌單鏈接及下一頁url'''

        # 歌單標題
        # /playlist?id=2174792139" 要加上root_url
        playlist_url = html.xpath('//ul[@id="m-pl-container"]//a[@class="msk"]/@href')
        self.playlist_urls.extend(playlist_url)
        # print(playlist_url)

        try:
            next_url = html.xpath('//a[@class="zbtn znxt"]/@href')[0]
            print('next_url:%s'%next_url)
        except:
            return None
        else:
            return self.root_url + next_url

    def get_playlist_info(self):
        # 迴圈請求歌單詳情
        info_dict = {}
        for url in self.playlist_urls:
            # 請求url 獲取網頁
            url = self.root_url + url
            html_str = self.parse_url(url=url)
            html = etree.HTML(html_str)

            # 從網頁中提取資訊
            songs = []
            songs_li = html.xpath('//div[@id="song-list-pre-cache"]//li')
            for li in songs_li:
                song_info = {
                                'song_name': li.xpath('.//text()'),
                                'song_link': li.xpath('./a/@href')

                            },
                songs.append(song_info)

            info_dict = {
                'class': self.classname,
                'title': html.xpath('//title/text()'),
                'url': url,
                'author': html.xpath('//div[@class="user f-cb"]/a[@class="s-fc7"]/text()'),
                'create_time': html.xpath('//div[@class="user f-cb"]/span[@class="u-icn u-icn-84 "]/text()'),
                'tags': html.xpath('//div[@clas="tags f-cb"]/b//text()'),
                'description': html.xpath('//p[@id="album-desc-dot"]/text()'),
                'transmit': html.xpath('//a[@class="u-btni u-btni-share "]/i/text()'),
                'store': html.xpath('//a[@class="u-btni u-btni-fav "]/i/text()'),
                'comments': html.xpath('//span[@id="cnt_comment_count"]/text()'),
                'played_times': html.xpath('//strong[@id="play-count"]/text()'),
                'songs': songs
            }
            self.playlist_info.append(info_dict)
        # 清空url列表
        self.playlist_urls = []

    def save_palylist_info(self):
        '''儲存歌單資訊'''
        with open('{}.json'.format(self.classname), 'a', encoding='utf-8') as f:
            f.write(json.dumps(self.playlist_info, ensure_ascii=False, indent=4))

    def run(self):
        '''程式執行主邏輯'''
        # 請求初始url
        html_str = self.parse_url()
        html = etree.HTML(html_str)
        # print(html)

        # 獲取所有分類名
        self.get_cate_name_list(html)

        # 組織沒各小類的url get_class_url
        # print(self.classname_list)
        self.get_class_url()

        # 遍歷url列表獲取每小類的首頁頁面
        '''
        每個大類一個資料夾
        每個小類一個json檔案
        每個歌單一條資料
        沒首歌在歌單裡一個欄位
        '''
        # print(self.class_url_list)
        for url in self.class_url_list:
            print(url)
            # 請求小類url
            html_str = self.parse_url(url=url)
            html = etree.HTML(html_str)
            # 小類名 作為檔名
            self.classname = html.xpath('//span[@class="f-ff2 d-flag"]/text()')[0]

            # 　獲取歌單鏈接及下一頁url
            next_url = self.get_playlist(html)

            # 重複的請求與獲取 直到沒有下一頁
            while True:
                if next_url is None:
                    break
                else:
                    html_str = self.parse_url(url=next_url)
                    html = etree.HTML(html_str)

                    # 　獲取歌單鏈接及下一頁url
                    next_url = self.get_playlist(html)
                    # print(next_url)

            # 請求歌單列表裡的歌單url 進入詳情頁面
            self.get_playlist_info()
            # 獲取詳情頁的資訊並儲存
            self.save_palylist_info()


if __name__ == '__main__':
    spider = WangYiYunSpider()
    spider.run()

網易雲網站的層級是大類-小類-歌單-歌曲列表因此我們爬取的層級也是按照網站的層級來的，大多數網站的爬蟲都是差不多的套路，主要是爬取與被爬的網站的後端人員進行鬥爭吧，不過爬蟲總歸會勝利。

python 爬取某音樂平臺所有歌單資訊

# coding: utf-8 import requests import os from lxml import etree import json from spider_project.proxies import proxies import random cl

爬取網易雲音樂所有歌單資訊

可以結合下一篇文章實現歌曲下載 python 爬蟲下載網易歌單歌曲使用 python + requests + lxml + selenium 使用 requests 發起請求，獲取到所有分類的 url 使用 selenium 傳送請求取到

python 爬取QQ音樂

python 爬蟲import requestsimport jsonimport osimport threading#發送請求獲取信息def get_response(url): headers = { 'User-Agent': 'Mozilla/5.0 (M

Python 爬取qqmusic音樂url並批量下載

QQ col expr IE filename 代碼都是 sles () 　qqmusic上的音樂還是不少的，有些時候想要下載好聽的音樂，但有每次在網頁下載都是煩人的登錄什麽的。於是，來了個qqmusic的爬蟲。　　至少我覺得for循環爬蟲，最核心的應該就是找到待爬元

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

python3爬取qq音樂並下載 Python 爬取qqmusic音樂url並批量下載

本文參考Python 爬取qqmusic音樂url並批量下載同學找我爬取一下qq音樂播放連結，包括歌詞等資訊打包成json，試了一下可以爬取。一、找到qq音樂播放的url 1.找到搜尋頁面返回的資料包歌曲最終的播放連結時經過多次拼接的，首先找到qq音樂搜尋歌曲介面，https://y.qq.

Python爬取qq音樂的過程例項

一、前言　qq music上的音樂還是不少的，有些時候想要下載好聽的音樂，但有每次在網頁下載都是煩人的登入什麼的。於是，來了個qqmusic的爬蟲。至少我覺得for迴圈爬蟲，最核心的應該就是找到待爬元素所在url吧。二、Python爬取QQ音樂單曲

利用python爬取豆瓣音樂TOP250

最近無所事事，在逼乎看到別人爬取了豆瓣電影，發現挺適合我這菜雞練練手所以我來爬音樂。。 #對不起豆瓣，又是爬你。。目標網站：https://music.douban.com/top250?start=0 首先正常瀏覽分析網頁開啟網址，點選下一頁，發現網站URL變成

爬取某網站的所有烏雲漏洞文章，儲存為pdf檔案

鼎鼎大名的烏雲，存在了6年左右，就停擺了，真是可惜。。。這是從某個網站看到的烏雲文章，爬取儲存下來以作學習使用建立一個資料夾wooyun，把下面的程式碼儲存到一個檔案如test.py，放在該檔案裡面 # -*- coding: utf-8 -*- im

教你用Python爬取QQ音樂上的付費專輯

Hello,there!好久沒寫爬蟲的部落格啦，今天來寫一下怎麼爬取QQ音樂上的付費專輯（理論上所有專輯都可以）。想爬QQ音樂是因為實在沒錢買那些專輯，太多想聽的了！！附上執行結果截圖：先說一下需要的環境：系統是：基於Linux的DeepinOS桌面版15

用python爬取某視訊網站彈幕

文章以bilibili的《變態王子與不笑貓》（這是一部正常的日漫，請放心觀看）為例，爬取該番劇下所有視訊的彈幕。困難的地方主要在尋找視訊的cid上，確實花了點時間，最好找到了也有點恍然大悟，再就是請求彈幕的連結地址，也需要去所有請求裡找，耐心很重要。最後，採用多執行緒

用Python爬取某吧的美圖

Talk is cheap, show the code! import re import urllib.request def getHtml(url): page=urllib.request.urlopen(url) html=pa

python爬取百度新聞所有的新聞的前1頁標題和URL地址

這是我自己寫的一個爬取百度新聞的一個程式碼，歡迎大家多來討論，謝謝！(自己已經測試可以使用，在文章最後見效果圖) ''' re模板：2.2.1 requests模板：2.18.4 bs4模板：4.

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

python爬取亞馬遜簡單的書籍資訊

我有個需求就是抓取一些簡單的書籍資訊儲存到mysql資料庫，例如，封面圖片，書名，型別，作者，簡歷，出版社，語種。我比較之後，決定在亞馬遜來實現我的需求。我分析網站後發現，亞馬遜有個高階搜尋的功能，我就通過該搜尋結果來獲取書籍的詳情URL。由於亞馬遜

Python爬取網易雲音樂歌單內所有歌曲

一、目標：下載網易雲音樂熱門歌單二、用到的模組： requests，multiprocessing，re。三、步驟：（1）頁面分析：首先開啟網易雲音樂，選擇熱門歌單，可以看到以下歌單列表，然後開啟開發者工具本人對於Python學習建立了一個小小的學習圈子，為

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

python定向爬蟲——爬取某代理Ip網站上的所有ip

爬取一個網站的基本過程確定目標 –> 分析目標 –> 編寫程式 -> 執行爬蟲分析目標： url 格式資料格式網頁編碼分析目標資料在原始碼裡的結構，以便在獲取整個頁面原始碼後，可以利用正則進行匹配。

用Python爬取使用者蝦米音樂的歌單

Python的爬蟲非常簡單，現在又有成熟的爬蟲框架scrapy。現在，我們來用scrapy爬取自己蝦米歌單上的歌曲。通過這篇部落格，你將學到：基本的爬蟲設計模擬登陸維持登陸狀態 Xpath （中的一點皮毛233）。本文預設讀者已經通過scrap

python 爬取某音樂平臺所有歌單資訊

相關推薦