【爬蟲入門5】爬取酷狗TOP500

阿新 • • 發佈：2018-12-26

#coding utf-8
import time
import requests
from bs4 import BeautifulSoup

class spider_KG_top500(object):

    def __init__(self):
        print('Welcome to spider_KG_top500')

    def get_song_info(self, page_num):

        for page_num in range(page_num):

            page_num += 1
            if page_num > 23:
                print('Spider end!')
                break
            url = r'http://www.kugou.com/yy/rank/home/%s-8888.html?from=rank'%page_num
            headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}
            res = requests.get(url, headers=headers)
            res.encoding = 'utf-8'
            page = res.text
            soup = BeautifulSoup(page,'html.parser')
            song_rank = soup.select('.pc_temp_num')
            #'.pc_temp_songlist > ul > li > a' 標籤之間必須帶空格
            song_info = soup.select('.pc_temp_songlist > ul > li > a')
            song_time = soup.select('.pc_temp_time')

            for rank, info, song_time in zip(song_rank, song_info, song_time):
                data = {
                            'rank': rank.text.strip(),
                            'name': info['title'].split('-')[0].split(),
                            'singer': info['title'].split('-')[1].split(),
                            'song_time': song_time.text.strip()
                }
                print('Page %s:\n%s'%(page_num,data))

if __name__ == '__main__':
    while True:
        try:
            page_num = int(input('please input how many page to spider: '))
            break
        except Exception as e:
            print('please input 數字: ')
    start_time = time.time()
    spider = spider_KG_top500()
    spider.get_song_info(page_num)
    end_time = time.time()
    spend_time = end_time - start_time
    print('spend: %ss'%spend_time)

【爬蟲入門5】爬取酷狗TOP500

#coding utf-8 import time import requests from bs4 import BeautifulSoup class spider_KG_top500(object): def __init__(self):

[Python爬蟲]爬蟲例項:爬取酷狗TOP500的資料

根據書籍《從零開始學Python網路爬蟲》P41，綜合案例2—爬取酷狗TOP500的資料修改而來. 使用模組requests和模組BeautifukSoup進行爬取. 不得不說，酷狗拿來跑爬蟲真是好，不ban不限制IP~ 要爬取的頁面資訊酷狗TOP500 需要爬

爬蟲程式2-爬取酷狗top500

爬取的內容為酷狗榜單中酷狗top500的音樂資訊，如圖所示。網頁版酷狗不能手動翻頁，進行下一步的瀏覽。但通過觀察第一頁的URL： http://www.kugou.com/yy/rank/home/1-8888.html 這裡嘗試把數字1換為數字2，進行瀏覽，恰好返回的是第2頁的資訊（下圖）。進行

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(執行緒池版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from multiprocessing.dummy import Pool import t

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多程序版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 1 import requests 2 from lxml import etree 3 from multiprocessing import JoinableQueue as Queue 4 from

爬蟲入門，爬取酷狗歌單top500，簡單爬蟲案例

import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0

【學習】06 爬蟲使用代理地址爬取搜狗微信文章

實現功能根據登陸後的cookie製作header，請求搜尋微信文章url需要使用urlencode拼接使用代理避免IP被封使用pyquery解析得到需要的欄位資訊爬取文章詳情頁並存儲到M

【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞

工具：python3.6 ，pycharm 開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

【爬蟲入門1】css選擇器

css選擇器 css選擇器：一種快速定位元素的方法基本用法<1> * 選擇所有元素 .class .intro 選擇所有class="intro"的元素 #id #firstname 選擇所有id = "firstname"的元素 elemen

【爬蟲入門8】表單互動與模擬登入

表單互動與模擬登入表單互動什麼是表單互動使用python實現表單提交無論是簡單網頁還是採用非同步載入的網頁，都是使用GET方法請求網址來請求網頁資訊；如果想獲得登入表單後的資訊，就需要進行表單互動。 requests的post方法 import req

python爬蟲——爬取酷狗音樂top500(BeautifulSoup使用方法)

酷狗音樂Top500 進入，並按F12開啟開發者工具（本文以火狐瀏覽器為例）我們開始審查元素，在檢視器中觀察網頁原始碼，或者右鍵檢視頁面原始碼，看原始碼中是否有我們想要的資訊。我們可以在這裡看到歌單資訊，在ul標籤下正好有22條li個標籤，

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

比如我們今天的案例，豆瓣電影分類頁面。根本沒有什麼翻頁，需要點選“載入更多”新的電影資訊，前面的黑科技瞬間被秒…… 又比如知乎關注的人列表頁面：我複製了其中兩個人暱稱的 xpath： //*[@id="Popov

java 爬蟲爬取酷狗歌手資料

記錄防止忘記包： jsoup-1.4.1 html解析 httpcore-4.0.1_1 httpclient-4.0.1 程式碼：已經訪問的url佇列 //已經訪問連結佇列 public class VisitedUrlQueue { public static

Java爬蟲入門實戰：爬取京東圖書資訊

網路爬蟲框架寫網路爬蟲，一個要有一個邏輯順序。本文主要講解我自己經常使用的一個順序，並且本人經常

爬蟲入門——用python爬取網易雲音樂熱門歌手評論數

本文參考Monkey_D_Newdun 的文章用爬蟲獲取網易雲音樂熱門歌手評論數執行平臺：Windows 10IDE：spyderPython版本：3.6瀏覽器：360一、爬蟲基本思路a. 通過URL或者檔案獲取網頁：開啟網頁-F12-找到需要獲取的url，request h

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔

Python爬蟲入門-python之爬取pexels高清圖片

先上張圖片：首先開啟網址：,然後下來會發現下面的圖片是慢慢的加載出來的，也就是通過Ajax請求得到的。在搜尋框中輸入關鍵字：beauty,開啟F12，重新整理，選中XHR,然後一直下拉下拉: 會發現左側中的URL只有一個page是在發生變化的，在通

爬蟲入門-4-3.爬取豆瓣電影

lose ike mlp requests one spa host alt gen 1 import requests 2 3 url = "https://movie.douban.com/cinema/nowplaying/changsha/"

【爬蟲入門5】爬取酷狗TOP500

相關推薦