python3 實現爬取TOP500的音樂資訊並存儲到mongoDB資料庫中
阿新 • • 發佈:2020-01-09
爬取TOP500的音樂資訊,包括排名情況、歌曲名、歌曲時間。
網頁版酷狗不能手動翻頁進行下一步的瀏覽,仔細觀察第一頁的URL:
http://www.kugou.com/yy/rank/home/1-8888.html
這裡嘗試將1改為2,再進行瀏覽,恰好是第二頁的資訊,再改為3,恰好是第三頁的資訊,多次嘗試發現不同的數字即為不同的頁面。因此只需更改home/後面的數字即可。由於每頁顯示的為22首歌曲,所以總共需要23個URL。
import requests from bs4 import BeautifulSoup from time import sleep import pymongo #連線資料庫 client = pymongo.MongoClient(‘localhost',27017) mydb = client[‘yourdb'] #建立資料庫 musicTop = mydb[‘musicTop'] #使用header是用於偽裝為瀏覽器,讓爬蟲更穩定 Headers = { ‘User-Agent': ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/70.0.3538.67 Safari/537.36' } #定義獲取資訊的函式 def get_info(url): wd_data = requests.get(url,headers=Headers) soup = BeautifulSoup(wd_data.text,‘lxml') #獲取排名情況 ranks = soup.select(‘span.pc_temp_num') #獲取標題 titles = soup.select(‘div.pc_temp_songlist > ul > li > a') #獲取時間 times = soup.select(‘span.pc_temp_tips_r > span') for rank,title,time in zip(ranks,titles,times): data = { ‘rank':rank.get_text().strip(),‘singer':title.get_text(),‘song':title.get_text(),‘time':time.get_text().strip() } musicTop.insert_one(data) #存入資料庫中 if name == ‘main': urls = [‘http://www.kugou.com/yy/rank/home/{}-8888.html'.format(number) for number in range(1,24)] for url in urls: get_info(url) sleep(2)
執行後,爬取的資料在mongoDB資料庫中顯示如下:
以上這篇python3 實現爬取TOP500的音樂資訊並存儲到mongoDB資料庫中就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。