1. 程式人生 > 其它 >【Python爬蟲】新發現一個高質量跳舞視訊網站爬一下試試,男生都喜歡

【Python爬蟲】新發現一個高質量跳舞視訊網站爬一下試試,男生都喜歡

好難受,上次發了做遊戲的居然沒人看,每天為了給你們寫啥,老夫心都操碎了~

真的是,今天來給大家爬一波短視訊網站吧,都是些很養眼的~

網站地址在程式碼裡面,大家用心一下就能看到了。

使用的軟體

  • python 3.8
  • pycharm 2021.2

模組

  • requests
  • parsel
  • re
  • concurrent.futures
  • time
  • warnings

不會安裝模組看這篇:如何安裝python模組, python模組安裝失敗的原因以及解決辦法

程式碼展示

知道你們不想看那些步驟,我直接上程式碼吧

import requests
import parsel import re import concurrent.futures import time import warnings # 取消警告 warnings.filterwarnings("ignore") def get_html(url): """傳送請求獲取網頁原始碼""" html_data = requests.get(url=url, verify=False).text return html_data def parse_data_1(html_data): """第一次解析, 拿到所有的詳情頁連結""" selector
= parsel.Selector(html_data) url_list = selector.xpath('//a[@class="meta-title"]/@href').getall() return url_list def parse_data_2(html_data): """第二次解析, 獲取視訊連結""" video_url = re.findall('url: "(.*?)",', html_data)[0] return video_url def save(video_url): """儲存視訊""" title
= video_url.split('/')[-1] # 取連結當中的欄位作為標題 video_data = requests.get(video_url, verify=False).content # 傳送網路請求 with open(f'video/{title}', mode='wb') as f: f.write(video_data) print(title, "爬取成功!!!") start_time = time.time() url = 'https://www.520mmtv.com/hd/rewu.html' # 1. 向目標網站傳送請求 html_data = get_html(url=url) # 2. 第一次解析資料 提取詳情頁連結 url_list = parse_data_1(html_data=html_data) for info_url in url_list[:10]: # 3. 向詳情頁傳送請求 html_data_2 = get_html(url=info_url) # 4. 第二次解析資料 提取視訊播放地址 video_url = parse_data_2(html_data=html_data_2) # 5. 儲存視訊 save(video_url=video_url) print('花費時間:', time.time() - start_time)
#兄弟們學習python,有時候不知道怎麼學,從哪裡開始學。
#掌握了基本的一些語法或者做了兩個案例後,不知道下一步怎麼走,不知道如何去學習更加高深的知識。
#那麼對於這些大兄弟們,我準備了大量的免費視訊教程,PDF電子書籍,以及視訊源的原始碼!
#還會有大佬解答!
#都在這個群裡了 872937351
#歡迎加入,一起討論 一起學習!

爬取結果


視訊教程:

視訊教程 Python爬取高質量妹子跳舞視訊

兄弟們,學廢了點個讚唄~