一步步分析百度音樂的播放地址，利用Python爬蟲批量下載

阿新 • • 發佈：2019-01-23

百度音樂不需要登入也可以下載？聽到這個訊息是不是很興奮呢，

接下來我們開啟百度音樂,隨便開啟一首歌，切換到百度播放頁面：如圖

我這裡用的是Firfox 瀏覽器，開啟firebug 先清空所有的請求，如圖：

現在我們重新重新整理下頁面，看到這個.mp3的地址就是百度音樂的地址，我們可以直接複製到迅雷裡下載，但是這種做法太初級了吧，如果有很多首歌曲呢，每個都這樣複製，豈不是很麻煩啊。，接下來我們繼續分析。

這個連結有個特點，就是music/1658513 這個是什麼呢？你猜的沒錯，這個是每首歌曲的Id ，再看後面的引數xcode 這個是個guid ，經過對比之後，每個都不一樣，這個從哪來的啊。。我們繼續分析其他請求。。

哈哈，還是被我們找到了吧，這個songLink 就是音樂的地址，但是這個請求是怎麼來的呢，我們繼續往上找，我們看到post請求裡的引數，有個songIds 這個就是每首歌的Id,

到了這一步，一切都很順利，把這個地址複製下來，接下來，該我們的Python出場了。。

這裡使用的環境是Python3.4 ，第三方庫BeautifulSoup，requests，怎麼安裝，網上有很多，接下來上程式碼

新建一個xml檔案取名為music.xml 格式如下

<?xml version="1.0" encoding="utf-8"?>
<root>
    <url 
>http://music.baidu.com/tag/純淨</url>
    <pageSize>40</pageSize>
    <savePlay>d:\\純淨\\</savePlay>
</root>

url 是百度音樂的分類地址 pageSize 是要下載的頁數，savePlay 是儲存的路徑

接下來我們再建一個py檔案主要程式碼部分：

模擬瀏覽器請求，防止被遮蔽

headers={
            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0' 
,
            'Referer':'http://play.xml.baidu.com/',
            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Encoding':'gzip, deflate, br',
            'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
            'Cache-Control':'max-age=0',
            'Connection':'keep-alive'
}

讀取xml檔案的方法

def getTagText(tag):
    rc = ""
dom=xml.dom.minidom.parse("play.xml")
    node = dom.getElementsByTagName(tag)[0]
    for node in node.childNodes:
        if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):
            rc=node.data
    return rc

解析html方法

def DownHtml(url):
        try:
           savePlay=getTagText("savePlay")
           print("準備開始解析頁面："+url+"  請稍候...")
           html=requests.get(url,headers=headers,timeout=2000)
           html.encoding="utf-8"
soup=BeautifulSoup(html.text,"html.parser")
           div_html=soup.find("div",class_="search-song-list song-list song-list-hook")
           span_html=re.findall('<span class="music-icon-hook" data-musicicon=\'(.*?)\'>',str(div_html))
           for v in span_html:
               data=json.loads(v)
               play=data["id"],data["songTitle"]
               queue.append(play)
           while queue:
               time.sleep(5) 
               music_tuple=queue.popleft()
               playUrl=music.replace("$0$",music_tuple[0])
               print(music_tuple[1]+".mp3進入下載通道,開始排隊等待...\n")
               resultJson=requests.get(playUrl,headers=headers,timeout=2000)
               data=resultJson.json()
               if not data['data']:
                   pass
               else:
                   v=data["data"]["songList"][0];
                   print("正在下載, "+v["songName"]+".mp3 ...\n")
                   time.sleep(2)
                   request.urlretrieve(v["songLink"],savePlay+v["songName"]+".mp3")
                   print(v["songName"]+".mp3 下載完成,下載路徑:"+savePlay+v["songName"]+".mp3")
        except:
            pass

if __name__=="__main__":
    start = time.time()
    pageSize=int(getTagText("pageSize"))
    pageIndex=25
url=getTagText("url")
    playurls.append(url)
    if pageSize>1:
        for v in range(pageSize):
            if v>0:
                purl=url+"?start="+str(pageIndex)+"&size=25&third_type=0"
playurls.append(purl)
                pageIndex+=25
with Pool(4)as p:
        p.map(DownHtml,playurls)

    print("本次下載共用時："+time.time()-start)

最後發個截圖，一起來看看我們執行的效果吧，

ps :新手自學，如有不足的地方，歡迎指正，環境是在vs2013上開發的，如果其他ide可以單獨複製出py,和xml 檔案原始碼地址

一步步分析百度音樂的播放地址，利用Python爬蟲批量下載

百度音樂不需要登入也可以下載？聽到這個訊息是不是很興奮呢，接下來我們開啟百度音樂,隨便開啟一首歌，切換到百度播放頁面：如圖我這裡用的是Firfox 瀏覽器，開啟firebug 先清空所有的請求，如圖：現在我們重新重新整理下頁面，看到這個.mp3的地址就是百度音樂的

利用Python爬蟲批量下載網易雲音樂歌單歌曲

from tkinter import * import requests from bs4 import BeautifulSoup from urllib.request import urlretrieve def download(): url = ent

Xcode 6系列百度網盤地址，包含Xcode 6.2以及Xcode 6.3

下載個Xcode太難了。家裡光纖寬頻，下了整整1天啊分享一下Xcode百度網盤地址： Xcode 6.2: http://pan.baidu.com/s/1i3jAJtFXcode 6.3: http://pan.baidu.com/s/1o6Hq7rkXcode 6.1

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。然後決定自己寫一個爬蟲，已經看書兩個禮

python爬蟲批量下載全民K歌音樂

網址示例: https://node.kg.qq.com/personal?uid=639e9983222a338a 直接上原始碼: import requests import time import re import json import pprint import math impor

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

使用百度音樂盒API介面實現音樂播放器

百度音樂盒提供了一個便捷的API可以拿來訪問一些音樂資源，開發者通過訪問指定格式的url可以拿到返回的資料，這個資料可以是json或者xml，這裡麵包含了歌曲的資訊。完整的API各種訪問格式是非常豐富的，參見http://www.cnblogs.com/liuying19

第五章上機一百度音樂標籤網頁

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html

百度音樂API抓取

vim 後來 ews new ble -a getch 電臺威爾百度音樂API抓取前段時間做了一個本地音樂的播放器 github地址，想實現在線播放的功能，於是到處尋找API，很遺憾，不是歌曲不全就是質量不高。在網上發現這麽一個APIMRASONG博客，有&ld

前端性能分析：分析百度和sogou

後臺性能 con 圖片 work char sogo wait 部分先用httpwatch錄制這兩個網站：www.baidu.com www.sogou.com 由上圖可以看到：百度用時0.278s 發送7831B 接收36620B 13個請求搜狗

金蝶 K3 WISE 14.3 安裝文件包下載百度雲盤地址

金蝶 k3 erp k/3 wise 14.3 K/3 WISE 14.3 金蝶官方下載地址：https://pan.baidu.com/s/1bYeyNs#list/path=%2FK3%E5%AE%89%E8%A3%85%E5%8C%85%2FK3%20WISE14.3&par

Python爬去百度音樂

百度音樂編譯器環境：Python3.6代碼：#!/usr/bin/env python #-*-coding=utf-8 -*- #AUTHOR:duwentao import requests import re import json def get_sids_by_name(name):

【深度學習系列】一起來參加百度 PaddlePaddle AI 大賽吧！

人工領域而且標註數據 sea nload 類型指定路徑 ear 　　寫這個系列寫了兩個月了，對paddlepaddle的使用越來越熟悉，不過一直沒找到合適的應用場景。最近百度搞了個AI大賽，據說有四個賽題，現在是第一個----綜藝節目精彩片段預測，大家可以去檢測一

pythonp爬蟲爬取百度音樂

www code focus rfi aid xtra trac cookie bds #coding=utf-8 import requests import re import time from bs4 import BeautifulSoup

【數據分析】python分析百度搜索關鍵詞的頻率

爬蟲自動化數據分析 python 基礎涉及知識點 1、抓取數據 2、分頁爬蟲規律分析1、抓取數據，發現每一項都是data-tools標簽2、分頁分析代碼import requests from bs4 import BeautifulSoup import re impo

百度音樂爬取文件練習

PE F12 正則表達式 con hit 歌曲 content 導入存儲 import requests import re #正則表達式庫導入倒推部分下載文件的代碼url=‘http://zhangmenshiting.qianqian.com/data2/music/

好久好久沒寫，，百度API逆地址解析以及刪除指定marker

dell map margin dex 其中 tree int location button 百度地圖Api中除覆蓋物有兩個方法：map.removeOverlay()或者 map.clearOverlays()，其中 clearOverlays()方法一次移除所有的覆

分布式環境中，模塊數據交互協議分析 (百度brpc)

sign short 自己的 source 變量 git character 消息 sock 1. 背景之前聽到同事說，要為自己的模塊考慮寫個數據協議。今天有空想了一下。寫出來，方便後續使用。開源代碼brpc中可以支持多種協議，nshead、redis、mongo等20

跟廠長學PHP7內核（五）：一步步分析生命周期之模塊初始化階段

hle 持久 globals .post lean nco ror sign trie 上篇我們講到了模塊初始化階段，並得知它是由php_module_startup函數來實現的。該階段的主要作用是初始化變量、常量；註冊各種函數，比如工具、詞法、語法函數等；解析配置文件；

叮！你有一條來自百度深度學習公開課的訊息待檢視

作為百度自主研發的深度學習平臺，PaddlePaddle 的易學易用和靈活高效極大地降低了開發者的研發門檻。為幫助開發者打造一條深度學習快速進階之路，百度開設了“深度學習公開課”，從 PaddlePaddle 開發基礎與功能、深度學習工程師的職業規劃以及 PaddlePaddle 應用解析等方面，為開發者

一步步分析百度音樂的播放地址，利用Python爬蟲批量下載

相關推薦