基於Python爬取愛奇藝資源過程解析

阿新 • • 發佈：2020-03-03

像iqiyi這種視訊網站，現在下載視訊都需要下載相應的客戶端。那麼如何不用下載客戶端，直接下載非vip視訊？

選擇你想要爬取的內容

該安裝的程式以及執行環境都配置好

下面這段程式碼就是我在愛奇藝裡搜素“英文名”，然後出來的視訊，共有20頁，那麼我們便從第一頁開始，解析網頁，然後分析

分析每一頁網址，找出規律就可以直接得到所有頁面

然後根據每一個視訊的URL的標籤，如'class' 'div' 'href'......通過bs4庫進行爬取

而其他的資訊則是直接迴圈所爬取到的URL，在每一個裡再通過標籤去找

import requests
import pandas as pd
from bs4 import BeautifulSoup

#爬取URL 
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/79.0.3945.79 Safari/537.36'}
b=[]
for i in range(1,2):
  url="https://so.iqiyi.com/so/q_英文名_ctg_t_0_page_"+str(i)+"_p_1_qc_0_rd__site__m_1_bitrate_"  #共20頁,根據每頁的網址變換規律進行拼接
  r=requests.get(url,headers=headers)  
  soup=BeautifulSoup(r.text,"html.parser")
  a=soup.findAll('a',{'class':'main-tit'}) 
  for i in a:
    if 'http://www.'in i.get('href')and 'html'in i.get('href'):
      b.append(i.get('href'))
print(b)


#爬取標題
e=[]
for k in b:
  res=requests.get(k,headers=headers)
  Soup=BeautifulSoup(res.text,'html.parser')
  c=Soup.findAll('div',{'class':'feed-title-box'})
  for d in c:
    e.append(d.find('h1').text) 
print(e)

#爬取標題下方描述
f=[]
for j in b:
  res=requests.get(j,{'class':'qy-play-intro-feed'})
  for d in c:
    f.append(d.find('p',{'class':"intro-iterm__block"}).text)
print(f)


#爬取釋出時間
h=[]
for j in b:
  res=requests.get(j,{'class':'intro-iterm'})
  for d in c:
    ff=(d.find('span',{'class':"intro-iterm__txt"}))
    if ff==None:
      continue
  h.append(ff.text)
print(h)

# 爬取上傳作者
m=[]
for k in b:
  res=requests.get(k,'html.parser')
  c=Soup.find('div',{'id':'block-P'})
  d=Soup.find('div',{'class':'qy-player-maker'})
  try:
    name=c.get(':uploader').split(',')[1].split(':')[1].replace('"','')#輸出是字串的格式，所以用split切割。replace替換
  except:
    try:
      name=d.get(':uploader').split(','')
    except:
      m.append("匿名使用者")
  m.append(name)
print(m)

上面的程式碼輸出結果便是英文名的所有網址及其視訊中的一些資訊

這裡我需要講一下的是，為什麼在爬取作者資訊的模組裡我採取了try的方法，因為在我爬取的過程中我發現，有的視訊的上傳作者在視訊左下方，有的在視訊的右下方，有的視訊乾脆沒有上傳作者。

同樣的，你想要爬取其他內容也可以用這種方法獲取URL和他的其他資訊

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

基於Python爬取愛奇藝資源過程解析

像iqiyi這種視訊網站，現在下載視訊都需要下載相應的客戶端。那麼如何不用下載客戶端，直接下載非vip視訊？

Python爬取愛奇藝電影資訊程式碼例項

這篇文章主要介紹了Python爬取愛奇藝電影資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

基礎入門爬蟲：教你怎麼用Python爬取愛奇藝熱門電影

一、首先我們要找到目標找到目標先分析一下網頁很幸運這個只有一個網頁，不需要翻頁。

基於Python爬取fofa網頁端資料過程解析

FOFA-網路空間安全搜尋引擎是網路空間資產檢索系統（FOFA）是世界上資料覆蓋更完整的IT裝置搜尋引擎，擁有全球聯網IT裝置更全的DNA資訊。探索全球網際網路的資產資訊，進行資產及漏洞影響範圍分析、應用分佈統計、應

基於Python爬取搜狐證券股票過程解析

資料的爬取我們以上證50的股票為例，首先需要找到一個網站包含這五十隻股票的股票程式碼，例如這裡我們使用搜狐證券提供的列表。

Jsoup爬取愛奇藝高分電影排行榜資料

原文地址：xeblog.cn/articles/27 Jsoup簡介 Jsoup官網：jsoup.org/ jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法

python爬取Ajax動態載入網頁過程解析

常見的反爬機制及處理方式 1、Headers反爬蟲：Cookie、Referer、User-Agent 解決方案: 通過F12獲取headers,傳給requests.get()方法

基於python爬取有道翻譯過程圖解

1.準備工作先來到有道線上翻譯的介面http://fanyi.youdao.com/ F12 審查元素 ->選Network一欄，然後F5重新整理（如果看不到Method一欄，右鍵Name欄，選中Method）

如何基於Python爬取隱祕的角落評論

“一起去爬山吧？” 這句臺詞火爆了整個朋友圈，沒錯，就是來自最近熱門的《隱祕的角落》，豆瓣評分8.9分，好評不斷。

基於Python爬取51cto部落格頁面資訊過程解析

介紹提到爬蟲，網際網路的朋友應該都不陌生，現在使用Python爬取網站資料是非常常見的手段，好多朋友都是爬取豆瓣資訊為案例，我不想重複，就使用了爬取51cto部落格網站資訊為案例，這裡以我的部落格頁面為教程，編

基於Python爬取素材網站音訊檔案

基本環境配置 python 3.6 pycharm requests parsel 相關模組pip安裝即可目標網頁請求網頁 import requests

基於python爬取鏈家二手房資訊程式碼示例

基本環境配置 python 3.6 pycharm requests parsel time 相關模組pip安裝即可確定目標網頁資料

基於Python爬取股票資料過程詳解

基本環境配置 python 3.6 pycharm requests csv time 相關模組pip安裝即可目標網頁分析網頁

基於Python爬取京東雙十一商品價格曲線

一年一度的雙十一就快到了，各種砍價、蓋樓、挖現金的口令將在未來一個月內充斥朋友圈、微信群中。玩過多次雙十一活動的小編表示一頓操作猛如虎，一看結果2毛5。浪費時間不說而且未必得到真正的優惠，雙十一電商的“

基於python爬取梨視訊實現過程解析

目標網址：梨視訊然後我們找到科技這一頁：https://www.pearvideo.com/category_8。其實你要哪一頁都行，你喜歡就行。嘿嘿…

Python使用mongodb儲存爬取豆瓣電影的資料過程解析

建立爬蟲專案douban scrapy startproject douban 設定items.py檔案，儲存要儲存的資料型別和欄位名稱

Python爬取知乎圖片程式碼實現解析

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面資訊，比如最重要的合計有多少人回答問題。

Python爬取阿拉丁統計資訊過程圖解

背景目前專案在移動端上，首推使用微信小程式。各專案的小程式訪問資料有必要進行採集入庫，方便後續做統計分析。雖然阿拉丁後臺也提供了趨勢分析等功能，但一個個的獲取資料做資料分析是很痛苦的事情。通過將資料轉

Python CSS選擇器爬取京東網商品資訊過程解析

CSS選擇器目前，除了官方文件之外，市面上及網路詳細介紹BeautifulSoup使用的技術書籍和部落格軟文並不多，而在這僅有的資料中介紹CSS選擇器的少之又少。在網路爬蟲的頁面解析中，CCS選擇器實際上是一把效率甚高的利

基於Python新建使用者併產生隨機密碼過程解析

說明：本次程式碼是在Linux下執行的，windows也可以用，把新增使用者密碼的命令改成windows的就ok了