【Python爬蟲】新發現一個高質量跳舞視訊網站爬一下試試，男生都喜歡

阿新 • • 發佈：2021-11-20

好難受，上次發了做遊戲的居然沒人看，每天為了給你們寫啥，老夫心都操碎了~

真的是，今天來給大家爬一波短視訊網站吧，都是些很養眼的~

網站地址在程式碼裡面，大家用心一下就能看到了。

使用的軟體

python 3.8
pycharm 2021.2

模組

requests
parsel
re
concurrent.futures
time
warnings

不會安裝模組看這篇：如何安裝python模組, python模組安裝失敗的原因以及解決辦法

程式碼展示

知道你們不想看那些步驟，我直接上程式碼吧

import requests
 
import parsel
import re
import concurrent.futures
import time
import warnings

# 取消警告
warnings.filterwarnings("ignore")


def get_html(url):
    """傳送請求獲取網頁原始碼"""
    html_data = requests.get(url=url, verify=False).text
    return html_data


def parse_data_1(html_data):
    """第一次解析, 拿到所有的詳情頁連結"""
    selector  
= parsel.Selector(html_data)
    url_list = selector.xpath('//a[@class="meta-title"]/@href').getall()
    return url_list


def parse_data_2(html_data):
    """第二次解析, 獲取視訊連結"""
    video_url = re.findall('url: "(.*?)",', html_data)[0]
    return video_url


def save(video_url):
    """儲存視訊"""
    title  
= video_url.split('/')[-1]    # 取連結當中的欄位作為標題
    video_data = requests.get(video_url, verify=False).content    # 傳送網路請求
    with open(f'video/{title}', mode='wb') as f:
        f.write(video_data)
    print(title, "爬取成功!!!")

start_time = time.time()
url = 'https://www.520mmtv.com/hd/rewu.html'
# 1. 向目標網站傳送請求
html_data = get_html(url=url)
# 2. 第一次解析資料 提取詳情頁連結
url_list = parse_data_1(html_data=html_data)
for info_url in url_list[:10]:
    # 3. 向詳情頁傳送請求
    html_data_2 = get_html(url=info_url)
    # 4. 第二次解析資料 提取視訊播放地址
    video_url = parse_data_2(html_data=html_data_2)
    # 5. 儲存視訊
    save(video_url=video_url)
print('花費時間：', time.time() - start_time)

#兄弟們學習python，有時候不知道怎麼學，從哪裡開始學。
#掌握了基本的一些語法或者做了兩個案例後，不知道下一步怎麼走，不知道如何去學習更加高深的知識。
#那麼對於這些大兄弟們，我準備了大量的免費視訊教程，PDF電子書籍，以及視訊源的原始碼！
#還會有大佬解答！
#都在這個群裡了 872937351
#歡迎加入，一起討論 一起學習！

爬取結果

視訊教程：

視訊教程 Python爬取高質量妹子跳舞視訊

兄弟們，學廢了點個讚唄~

【Python爬蟲】新發現一個高質量跳舞視訊網站爬一下試試，男生都喜歡

好難受，上次發了做遊戲的居然沒人看，每天為了給你們寫啥，老夫心都操碎了~

【Python爬蟲】一個簡單的網路爬蟲

網頁結構的相似性爬蟲的目的，是從網站中自動化的批量提取資料。首先嚐試完成以下操作:

【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的程式碼（附原始碼）

前言今天我們通過Python爬取小姐姐圖片網站上的美圖，零基礎學會通用爬蟲，當然我們還可以實現多執行緒爬蟲，加快爬蟲速度

【Python爬蟲】如何把抖音漂亮的小姐姐（高清、無水印）儲存到硬盤裡，附原始碼

前言現在自媒體平臺上經常有一些視訊素材需要儲存下來，但是大部分平臺下載下來都帶上了平臺水印，影響視訊美觀。這次我們用爬蟲，可以爬到高清無水印的視訊

【Python爬蟲】採集一個優秀藝術家相互交流的網站——P站（一個正經的網站）

前言總所周知, p站是日本知名的虛擬社群, 聚集了眾多來自日本, 中國, 韓國, 美國等國家的優秀藝術家。他們在p站上相互交流, 分享高清優秀插畫, 是一個正經的網站

【彼岸美圖】二十行程式碼下載上千張高清美圖桌布【python爬蟲】

小白也能看懂的python爬蟲，從零開始爬彼岸圖網桌布美圖你是否有過以下煩惱：

【Python爬蟲】儲存格式化資料

我們一直使用 print 方法列印爬蟲獲取的資料，接下來你將把這些資料儲存到特定格式檔案中。

【Python爬蟲】：爬取（谷歌/百度/搜狗）的搜尋結果

步驟如下：1.首先匯入爬蟲的package：requests 2.使用UA偽裝進行反反爬蟲，將爬蟲偽裝成一個瀏覽器進行上網

【Python爬蟲】爬取websockect

websockect基礎還有原理省略 PS:這裡我說下aiowebsocket這個依賴庫，堪稱垃圾中的戰鬥機，在Mac（Linux沒測試過，但是Mac的核心是Linux，放到centOS我估計也會出這個問題）上一直報錯SSL證書錯誤，在windowes上hand

【Python爬蟲】15行程式碼教你爬B站視訊彈幕，詞雲圖展示資料（附原始碼）

知識點爬蟲基本流程正則 requests >>> pip install requests jieba >>> pip install jieba

【Python爬蟲】太刺激了！本來只想爬個視訊的，誰知自己淪陷進去了（附原始碼）

知識點爬蟲基本流程 re正則表示式簡單使用 requests json資料解析方法視訊資料儲存

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

知識點爬蟲的步驟 requests parsel xpath資料解析爬蟲四個步驟: 1.獲取網頁地址 (目標地址)2.傳送請求3.資料解析4.儲存本地

【Python爬蟲】拉鉤網招聘資訊資料採集

本文要點：爬蟲的基本流程 requests模組的使用儲存csv 視覺化分析展示環境介紹

【python爬蟲】遊俠網部分新聞爬取

最後效果展示【用網頁表格的形式展示爬取的資料】用pyinstaller打包成exe了【python3.6 可執行的環境多一些】

【Python爬蟲】查自己部落格每月發帖量的小程式

【前提：安裝beautifulsoup4和requests】 pip install beautifulsoup4 pip install requests 【程式碼】

拓展python爬蟲，男生都喜歡的爬蟲案例！

爬蟲爬取圖片的簡單例項這裡以圖片之家為例首先分析網頁每一頁與每一頁之間只是list_176_後面的數字不同，所以我們可以根據不同的需求來進行翻頁

【免費程式】精仿B站原始碼/Bilibili視訊網站原始碼+自動採集360視訊

本資源可免費獲取，請至尾部讀閱！精仿B站原始碼+自動採集360視訊精仿嗶哩嗶哩還原度高達90%

【python爬蟲實戰】使用Selenium webdriver採集山東招考資料

目錄 1、目標 2、Selenium webdriver說明 2.1 為什麼使用webdriver 2.2 webdriver支援瀏覽器 2.3 配置與使用說明

【Python程式設計】如何用Python寫一個可安裝檔案使行動硬碟不休眠

當我們外接行動硬碟時，有些行動硬碟或者硬碟盒是自帶休眠功能的，但是單我們需要經常去呼叫硬碟時，每五分鐘的休眠週期是我們無法忍受的，而且硬碟的頻繁啟動不僅導致讀取寫入時間比較慢，而且還會導致硬碟出現壞道

【Python爬蟲筆記】一、驗證碼識別

技術標籤：【Python】一、OCR技術 OCR（Optical Character Recognition，光學字元識別）是指電子裝置（例如掃描器或數碼相機）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀