爬蟲實戰-xvideos視訊爬蟲

阿新 • • 發佈：2018-12-14

前情概要

舍友說他的VPN要到期了,讓我物盡其用，所以幫他爬點小電影回來，我想了想正好是對我爬蟲能力的一次測驗，雖然我不看，但是我還是嘗試製作了一個X站的爬蟲。

我是用的是Anaconda下自帶的Spyder IDE，python3.7 。

首先

我考慮的是爬蟲的擴散，但是不論用是BeautifulSoup還是json解析都找不到正確的地址，於是我使用了selenium模擬真人操作，

設一個全域性變數pages來儲存地址資訊。

pages=set()
def getUrls(start_url):
    browser = webdriver.Chrome()
    browser.get(start_url)
    # 通過css選擇器查詢
    urls = browser.find_elements_by_css_selector('.thumb a')
    
    global pages
    
    for x in urls:
        url = x.get_attribute('href')
        if url not in pages:
    #        新頁面
            print(url)
            pages.add(url)
        else:
            print("已經下載過")
    time.sleep(5)
    browser.quit()

其次

要從每個頁面中提取出可以下載視訊的url

要注意的是如果如果不加 content = urllib.request.urlopen(req).read() 會出現報錯

can't use a string pattern on a bytes-like object

通過解析Html頁面發現在Script標籤裡存在我們需要的資料，用正則表示式提取

def download_the_av(url):
    req = urllib.request.Request(url)
    content = urllib.request.urlopen(req).read()
#       注意 不加這行會出現錯誤
    content = content.decode('utf-8')
#    小於一百預設失敗
    while len(content)<100:
        print("try again...")
        content = urllib.request.urlopen(req).read()
        content = content.decode('utf-8')
    print( "All length:%s" %(str(len(content))))
    titleRe = "setVideoTitle\(\'(.+?)\'\);"
    lowUrlRe = "setVideoUrlLow\(\'(.+?)\'\);"
    patternTitle = re.compile(titleRe)

    patternLowUrl = re.compile(lowUrlRe)
    to_find = content
    
    matchTitle = patternTitle.search(to_find)
    matchLowUrl = patternLowUrl.search(to_find)
    if matchTitle:
        title = matchTitle.group(1)+".mp4"
        print (title)

    if matchLowUrl:
        lowUrl = matchLowUrl.group(1)
        print (lowUrl)
    if len(lowUrl)>0:
        save_file(lowUrl,title)

最後

將得到的視訊url下載到本地，並給上得到的title，就好了

要注意的是每個變數的type 不能亂賦值，很容易報錯的

程式碼

儲存在我的git庫中，有需要的話，大家可以實驗一下，下載的視訊請勿用作商業用途

https://github.com/Kratosssss/xvideos_spyder

爬蟲實戰-xvideos視訊爬蟲

前情概要舍友說他的VPN要到期了,讓我物盡其用，所以幫他爬點小電影回來，我想了想正好是對我爬蟲能力的一次測驗，雖然我不看，但是我還是嘗試製作了一個X站的爬蟲。我是用的是Anaconda下自帶的Spyder IDE，python3.7 。首先我考慮的

Python爬蟲實戰--58二手爬蟲預告

還是先紀念一下，部落格訪問量過萬吧，嘿嘿~~耍了點小手段，需要的可以找我瞭解一下！這裡簡單的預告一下吧，經過幾天的整理的，反覆的修改，58二手貨爬蟲可以正式上線啦！明天出文檔~ 先總結一下，本次爬蟲的重點和難點吧！重點：在於58二手，資訊量大，處理內容多，卻目標詳情頁大致為三種（意味著，

爬蟲實戰—豆瓣圖書爬蟲

前情概要感覺以前寫爬蟲有點依賴github上的程式碼，和網上的教程，這次打算從頭開始寫一個爬蟲，不用太難但是一定要都是自己寫的，所以打算拿豆瓣開始練習。原始碼 https://github.com/Kratosssss/yt_learn

python3 爬蟲實戰：為爬蟲新增 GUI 影象介面

From：https://blog.csdn.net/Fan_shui/article/details/81611752 一、前言　　前面我們寫的爬蟲只能執行在具有python環境的電腦上，若是把原始碼發給別人，很大可

python爬蟲實戰：基礎爬蟲(使用BeautifulSoup4等)

　　以前學習寫爬蟲程式時候，我沒有系統地學習爬蟲最基本的模組框架，只是實現自己的目標而寫出來的，最近學習基礎的爬蟲，但含有完整的結構，大型爬蟲含有的基礎模組，此專案也有，“麻雀雖小，五臟俱全”，只是沒有考慮優化和穩健性問題。　　　　　　　　　　　　　　爬蟲框架爬蟲框架包括這五大模組，簡單介紹作用：1.爬蟲

python爬蟲實戰：利用scrapy，短短50行程式碼下載整站短視訊

近日，有朋友向我求助一件小事兒，他在一個短視訊app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視訊的下載連結，幫他解決了這個小問題。因為這個事兒，勾起了我另一個念頭，這不最近一直想把python爬蟲方面的知識梳理梳理嗎，乾脆藉機行事，正湊

python3 爬蟲實戰：mitmproxy 對接 python 下載抖音小視訊

From：https://blog.csdn.net/Fan_shui/article/details/81461253 一、前言前面我們已經用 appium 爬取了微信朋友圈，今天我們學習下 mitmproxy，mi

python3爬蟲實戰（三）：mitmproxy對接python下載抖音小視訊

一、前言前面我們已經用appium爬取了微信朋友圈，今天我們學習下mitmproxy，mitmproxy是幹什麼的呢，它跟charles和fiddler類似，是一個抓包工具，以控制檯的形式顯示，mitmproxy的重要性在於它可以對接python,可

2018年最新Python3.6網路爬蟲實戰案例基礎+實戰+框架+分散式高清視訊教程(完整版)

課程簡介: 這是一套目前為止我覺得最適合小白學習的體系非常完整的Python爬蟲課程，使用的Python3.6的版本，用到anaconda來開發python程式，老師講解的很細緻，課程體系設定的也非常棒，完全是從淺入深一點點講解，從Python爬蟲環境的安裝開始，講解

500G python web、爬蟲、資料分析、機器學習、大資料、前端實戰專案視訊程式碼免費分享

資料分享：1、python基礎入門教程2、100多本python電子書：3、Django教學網站專案實戰視訊，帶xadmin後臺和原始碼：4、Flask專案實戰視訊和原始碼：5、爬蟲專案視訊和原始碼：（含scrapy學習）6、資料分析視訊和原始碼：7、機器學習深度學習視訊和原

學習Python就業有哪些方向，附加視訊教程（python3從入門到進階（面向物件），實戰（爬蟲，飛機遊戲，GUI實戰）視訊教程）

python3從入門到進階（面向物件），實戰（爬蟲，飛機遊戲，GUI實戰）視訊教程連結：http://pan.baidu.com/s/1kUG0pLH密碼：加以下微信為好友，朋友圈獲取。入門與基礎面向物件程式設計爬蟲實戰GUI實戰飛機遊戲Python是一門面向物件的程式語言，

Python網路爬蟲實戰(五)批量下載B站收藏夾視訊

我們除了爬取文字資訊，有的時候還需要爬媒體資訊，比如視訊圖片音樂等。就拿B站來說，我的收藏夾內的視訊可能隨時會失效，所以把它們下載到本地是非常保險的一件事。對於這種大量列表型的資料，可以猜測B站收藏夾的請求中，詳細的收藏詳細可能會是非同步載入的，因為這部分資料可能比較龐大。我們來分析一下網路請求。可

Python文本爬蟲實戰

文本文取出 www close each 取圖爬蟲 edit 正則表達式轉載請註明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html 一：流程目標：爬取目標網頁的圖片 1：獲取網頁源碼 2：用Python讀取源

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

常見實戰交互影視獲取框架並且 htm 處理 1.動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過js / AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成<divi

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

2017.08.10 Python爬蟲實戰之爬蟲攻防

ebs 1-1 間隔 ima pic setting fin 數據 del 1.創建一般的爬蟲：一般來說，小於100次訪問的爬蟲都無須為此擔心（1）以爬取美劇天堂為例，來源網頁：http://www.meijutt.com/new100.html，項目準備： scrapy

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

5.1 inux ice 一個 1.0 ninja 多網站 alt bject 1.封鎖user-agent破解： user-agent是瀏覽器的身份標識，網站就是通過user-agent來確定瀏覽器類型的。有很多網站會拒絕不符合一定標準的user-agent請求網頁，如果

爬蟲實戰-xvideos視訊爬蟲

前情概要

首先

其次

最後

程式碼

相關推薦