python3 實現爬取TOP500的音樂資訊並存儲到mongoDB資料庫中

阿新 • • 發佈：2020-01-09

爬取TOP500的音樂資訊，包括排名情況、歌曲名、歌曲時間。

網頁版酷狗不能手動翻頁進行下一步的瀏覽，仔細觀察第一頁的URL：

http://www.kugou.com/yy/rank/home/1-8888.html

這裡嘗試將1改為2，再進行瀏覽，恰好是第二頁的資訊，再改為3，恰好是第三頁的資訊，多次嘗試發現不同的數字即為不同的頁面。因此只需更改home/後面的數字即可。由於每頁顯示的為22首歌曲，所以總共需要23個URL。

import requests
from bs4 import BeautifulSoup
from time import sleep
import pymongo
#連線資料庫
client = pymongo.MongoClient(‘localhost',27017)
mydb = client[‘yourdb']
#建立資料庫
musicTop = mydb[‘musicTop']

#使用header是用於偽裝為瀏覽器，讓爬蟲更穩定
Headers = {
‘User-Agent': ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}
#定義獲取資訊的函式
def get_info(url):
wd_data = requests.get(url,headers=Headers)
soup = BeautifulSoup(wd_data.text,‘lxml')
#獲取排名情況
ranks = soup.select(‘span.pc_temp_num')
#獲取標題
titles = soup.select(‘div.pc_temp_songlist > ul > li > a')
#獲取時間
times = soup.select(‘span.pc_temp_tips_r > span')
for rank,title,time in zip(ranks,titles,times):
data = {
‘rank':rank.get_text().strip(),‘singer':title.get_text(),‘song':title.get_text(),‘time':time.get_text().strip()
}
musicTop.insert_one(data) #存入資料庫中
if name == ‘main':
urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html'.format(number) for number in range(1,24)]
for url in urls:
get_info(url)
sleep(2)

執行後，爬取的資料在mongoDB資料庫中顯示如下：

以上這篇python3 實現爬取TOP500的音樂資訊並存儲到mongoDB資料庫中就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python3 實現爬取TOP500的音樂資訊並存儲到mongoDB資料庫中

爬取TOP500的音樂資訊，包括排名情況、歌曲名、歌曲時間。網頁版酷狗不能手動翻頁進行下一步的瀏覽，仔細觀察第一頁的URL：

Python3 實現爬取網站下所有URL方式

獲取首頁元素資訊：目標 test_URL：http://www.xxx.com.cn/ 首先檢查元素，a 標籤下是我們需要爬取得連結，通過獲取連結路徑，定位出我們需要的資訊

python爬蟲實現爬取網頁主頁資訊（html程式碼）

技術標籤：pythonweb python爬蟲實現爬取網頁主頁資訊（html程式碼） 1.爬取網站原始碼

Python實現的爬取豆瓣電影資訊功能案例

本文例項講述了Python實現的爬取豆瓣電影資訊功能。分享給大家供大家參考，具體如下：

Python爬蟲實現的根據分類爬取豆瓣電影資訊功能示例

本文例項講述了Python爬蟲實現的根據分類爬取豆瓣電影資訊功能。分享給大家供大家參考，具體如下：

python爬取本站電子書資訊併入庫的實現程式碼

入門級爬蟲：只抓取書籍名稱，資訊及下載地址並存儲到資料庫資料庫工具類：DBUtil.py

爬取QQ音樂排行榜的相關音樂資訊

這次是爬取音樂的相關內容之後寫進資料庫：具體的實驗程式碼如下： import requests

Python用正則表示式實現爬取古詩文網站資訊

目錄分析古詩文1. 用正則表示式獲取總頁數2. 提取詩的標題3. 提取作者和朝代4. 提取詩的內容整理程式碼完整原始碼總結分析古詩文網站

Python3直接爬取圖片URL並儲存示例

有時候我們會需要從網路上爬取一些圖片，來滿足我們形形色色直至不可描述的需求。

Python爬取豆瓣視訊資訊程式碼例項

這篇文章主要介紹了Python爬取豆瓣視訊資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python如何實現爬取B站視訊

5月3日晚，央視在《新聞聯播》前播放了B站青年宣言片《後浪》，這是B站首次登陸央視黃金時段，今天在朋友圈陸續看到相關的視訊。最早用B站的同學都知道，B站是和A站以異曲同工的鬼畜視訊及動漫，進入到大眾視野的非主

Python如何使用正則表示式爬取京東商品資訊

京東（JD.com）是中國最大的自營式電商企業，2015年第一季度在中國自營式B2C電商市場的佔有率為56.3%。如此龐大的一個電商網站，上面的商品資訊是海量的，小編今天就帶小夥伴利用正則表示式，並且基於輸入的關鍵詞來

Python基於BeautifulSoup爬取京東商品資訊

今天小編利用美麗的湯來為大家演示一下如何實現京東商品資訊的精準匹配~~

Python如何爬取qq音樂歌詞到本地

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python實現爬取並分析電商評論

　　現如今各種APP、微信訂閱號、微博、購物網站等網站都允許使用者發表一些個人看法、意見、態度、評價、立場等資訊。針對這些資料，我們可以利用情感分析技術對其進行分析，總結出大量的有價值資訊。例如對商品評論

Python爬取招聘網資訊

1、資料來源：職友集 2、程式碼 import requests import openpyxl import time from bs4 import BeautifulSoup #用於解析和提取網頁資料的

Python爬取12306車次資訊

1、資料來源：12306官網 2、程式碼 import requests import re def send_request(): headers = headers = {

Python爬取QQ音樂榜單資料

1、爬取QQ音樂榜單資料並存入資料庫（MySQL） 2、程式碼 import requests import json from bs4 import BeautifulSoup

Python爬取12306車次資訊程式碼詳解

詳情檢視下面的程式碼：如果被識別就要新增一個cookie如果沒有被識別的話就要一個user—agent就好了。如果出現亂碼就設定編碼格式為utf-8

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。