python爬蟲你們最愛的YY小姐姐，這不爬取下來看看？

阿新 • • 發佈：2020-12-22

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

( 想要學習Python？Python學習交流群：1039649593，滿足你的需求，資料都已經上傳群檔案流，可以自行下載！還有海量最新2020python學習資料。 )

一、前言

yy平臺，直播界的先驅，有很多主播會把一些自己的直播精彩看點上傳到該平臺下的小視訊欄目中今天帶大家爬取yy小視訊欄目中所有的小視訊。

二、課程亮點

1、動態資料抓包演示
2、json資料解析方法
3、視訊資料儲存

三、所用到得庫

import requests  # 
 第三方模組
import pprint

四、環境配置

python 3.6
pycharm(專門為python打造的一款編輯器) 環境搭建專業版收費
requests

五、爬蟲案例一般步驟(思路):

1.找資料所在的url地址(分析網頁頁面<靜態/動態(抓包)>)
2.傳送網路請求(requests)
3.資料的解析(我們要的資料)
4.資料儲存(本地\資料庫)

六、找尋資料地址：

按照常規操作就是：
1、開啟開發者工具，選擇 network
2、點選重新整理網頁、檢視返回資料

但是這個網站和平常的靜態網頁有所不同，按照正常的網站它是有翻頁的，而這個網站是下滑網頁，才會出現新的視訊資料。

所以按照步驟應該是：

1、開啟開發者工具，選擇清空所有資料內容

2、下滑網頁內容
如果需要一個一個去找的話，是非常的麻煩且浪費時間，可以選擇複製一個視訊的名字或者釋出視訊使用者的名字，在開發者工具當中進行搜尋。

七、傳送網路請求找尋資料所在的url地址(分析網頁頁面<靜態/動態(抓包)：

# 1.找資料所在的url地址(分析網頁頁面<靜態/動態(抓包)>)
url = 'https://api-tinyvideo-web.yy.com/home/tinyvideosv2?'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 
'}
params = {'data': '{"uid":0,"page":1,"pageSize":10}'}

# 2.傳送網路請求(requests)
response = requests.get(url=url, params=params, headers=headers)
json_data = response.json()
# pprint.pprint(json_data)

# 3.資料的解析(我們要的資料)
data_list = json_data['data']['data']
for data in data_list:
    username = data['username'] + '.mp4' # 直播名字   flv avi rmvb
    resurl = data['resurl']  # 視訊地址
    # print(username, resurl)

    # 請求視訊資料
    video_data = requests.get(url=resurl, headers=headers).content  # 請求到的視訊資料

注意點：

我傳的param的引數和連結有一些不一樣，我只傳入了data，因為如果是所有的引數都傳入的話，那麼返回的結果是字串形式，這樣還會多一些步驟

1、正則匹配只提取裡面的json格式資料；

2、字串轉json。

八、進行資料儲存：

# 4.資料儲存(本地\資料庫)
with open('video\\' + username, mode='wb') as f:
    f.write(video_data)
    print('儲存完成:', username)

python爬蟲你們最愛的YY小姐姐，這不爬取下來看看？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲：知乎熱榜(靜態網頁)的爬取

1. 請求知乎熱榜網頁參考程式碼如下： import requests url = \'https://www.zhihu.com/hot\'

【Python爬蟲實戰】為何如此痴迷Python？還不是因為愛看小姐姐圖

爬取目標網址:絕對領域工具使用開發環境：win10、python3.7 開發工具：pycharm、Chrome

這屆 Showgirl行不行？AI告訴你誰是ChinaJoy上最漂亮的小姐姐

摘要：CJ開幕，頂著三伏天的酷暑高溫，暴走一整天，就為了拍點漂亮小姐姐給大家看看。

Python爬蟲系列之微信小程式逆向某優選爬蟲簽名演算法！厲害

程式碼僅供學習交流，請勿用於非法用途直接上程式碼 import hashlib from parser import parseParam

python爬蟲教程：爬取酷狗音樂，零基礎小白也能爬取哦

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲乾貨：資料分析小能手：JSON庫的用法

本章節我們將為大家介紹如何使用 Python 語言來編碼和解碼 JSON 物件。 JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式，易於人閱讀和編寫。

Python爬蟲中最重要、最常見、一定要熟練掌握的庫

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲的經典多執行緒方式，生產者與消費者模型

在之前的文章當中我們曾經說道，在多執行緒併發的場景當中，如果我們需要感知執行緒之間的狀態，交換執行緒之間的資訊是一件非常複雜和困難的事情。因為我們沒有更高階的系統許可權，也沒有上帝視角，很難知道目前執

面試官最愛的 volatile 關鍵字，這些問題你都搞懂了沒？

前言 volatile相關的知識點，在面試過程中，屬於基礎問題，是必須要掌握的知識點，如果回答不上來會嚴重扣分的哦。

Python, PySide2圖形介面程式設計-入門小程式，輸入薪資表並分類顯示

PySide2是一個非常簡單易用，功能強大的python介面設計包。這個包對Python直譯器的版本有要求，經測試在Python3.8.1下可以正常執行。

用python爬蟲方式：刷文章閱讀量，挺高你的文章訪問量

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲--呼叫某翻譯進行文字翻譯，自己動手製作翻譯器

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

使用 Python爬蟲-- 一鍵下載B站視訊，讓你瞭解B站程式碼資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

（硬貨）Python爬蟲偷懶神器 — 快速構造請求頭，屬於程式設計師的快樂

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬蟲 + 人臉檢測 —— 知乎高顏值圖片抓取

1 資料來源知乎話題『美女』下所有問題中回答所出現的圖片 2 抓取工具 Python 3，並使用第三方庫 Requests、lxml、AipFace，程式碼共 100 + 行

python爬蟲學習：從資料庫讀取目標爬蟲站點及爬蟲規程，批量爬取目標站點制定資料（scrapy框架）

資料庫databaseConfig.py ` from urllib.parse import quote_plus from pymongo import MongoClient import settings

Python網路爬蟲課程設計——嗶哩嗶哩彈幕爬取+地圖詞雲

一、選題背景在大資料的時代，人們的物質生活提升了很多，對視訊的播放內容，都有自己獨特的簡介，因而在視訊中，會被某個視訊，進行評論，此專案，就是抓取B站視訊評論，並使用詞雲圖進行展示。

python爬蟲開發與專案實戰學習筆記，（一）

------------恢復內容開始------------ 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　1.1 檔案讀寫

【Python爬蟲】太刺激了！本來只想爬個視訊的，誰知自己淪陷進去了（附原始碼）

知識點爬蟲基本流程 re正則表示式簡單使用 requests json資料解析方法視訊資料儲存

python爬蟲你們最愛的YY小姐姐，這不爬取下來看看？

一、前言

二、課程亮點

三、所用到得庫

四、環境配置

五、爬蟲案例一般步驟(思路):

六、找尋資料地址：

七、傳送網路請求找尋資料所在的url地址(分析網頁頁面<靜態/動態(抓包)：

八、進行資料儲存：

相關推薦