Python3從零開始爬取今日頭條的新聞【五、解析頭條視訊真實播放地址並自動下載】

阿新 • • 發佈：2018-12-12

本文目錄：

1.目標

本文目標是自動解析頭條的視訊新聞，通過第三方解析網站得到其真實的下載地址並自動下載到本地

*至於如何通過py自動解析、檢視大咖個人中心的視訊頁籤內容、自動翻頁載入，請移步《Python3從零開始爬取今日頭條的新聞【四、模擬點選切換tab標籤獲取內容】》 我們檢視央視網新聞這個大V的主頁：央視網新聞

所以我們實際上只要從視訊列表頁面解析得到視訊列表的/item/視訊id編號 ，然後通過selenium 驅動瀏覽自動輸入到上面的解析網站，獲取解析結果即可。

OK，思路有了，下面開搞~

2.實現

獲取到一系列的頭條視訊內部地址後，通過瀏覽器模擬輸入內部地址解析得到真實的下載地址。

這裡講下前幾篇文章沒遇到的一個場景：自動輸入內容到瀏覽器的輸入框，這個怎麼實現呢？核心程式碼如下：

def getRealPalyUrl(self, media_url, id, title, author):
        
        # 查詢視訊地址輸入框，自動輸入內容
        input_els = self.browser.find_element_by_xpath('//div[contains(@class, "input-group")]/input[contains(@placeholder, "請輸入視訊地址")][1]')
        input_els. 
send_keys('http://www.toutiao.com' + media_url)
        
        parse_btn = self.browser.find_element_by_xpath('//div[contains(@class, "input-group")]/div/button[contains(@class, "btn")][@type="button"][1]')
        parse_btn.click()

        try:
            videoInfo = WebDriverWait(self.browser, 10).until( 

                EC.presence_of_element_located((By.XPATH, '//div[@class="thumbnail"]/div[@class="caption"]/p[1]/a'))
            )
            
            page = self.browser.page_source
            page_etree = etree.HTML(page)
            video_a = page_etree.xpath('//div[@class="thumbnail"]/div[@class="caption"]/p[1]/a[last()]')
            if video_a and len(video_a) > 0:
                video_a = video_a[0]

                # 得到下載地址，視訊清晰度描述
                download_url = video_a.xpath('./@href')[0]
                desc = ''
                video_desc = video_a.xpath('./text()')
                if video_desc and len(video_desc) > 0 and ('視訊下載' in video_desc[0]):
                    desc = str(video_desc[0]).replace('視訊下載', '')
                    
                # 儲存到資料庫
                updateVideoInfo2DB(id, download_url, desc)
                
                # 下載到本地
                dl = DownloadFile()
                dl.download(download_url, title, author)
        except Exception as ex:
            print(ex)

函式getRealPalyUrl(self, media_url, id, title, author): 的media_url 就是前面說的頭條內部視訊地址比如：/item/6606468202769678855/ ，

 input_els = self.browser.find_element_by_xpath('//div[contains(@class, "input-group")]/input[contains(@placeholder, "請輸入視訊地址")][1]')
 input_els.send_keys('http://www.toutiao.com' + media_url)

上面第一行是為了找到“請輸入視訊地址”這個輸入框，第二行是模擬鍵盤輸入完整的地址內容。

parse_btn = self.browser.find_element_by_xpath('//div[contains(@class, "input-group")]/div/button[contains(@class, "btn")][@type="button"][1]')
parse_btn.click()

上面第一行是為了找到 解析視訊 這個按鈕，然後模擬滑鼠點選按鈕向伺服器傳送請求。

 videoInfo = WebDriverWait(self.browser, 10).until(
                EC.presence_of_element_located((By.XPATH, '//div[@class="thumbnail"]/div[@class="caption"]/p[1]/a'))
            )

接下來這個程式碼是在點選解析視訊按鈕之後等待頁面出現下載地址再進行下一步，這裡是最多等待10s，一般情況下都足夠了。後面就是解析得到具體的downloadurl了，然後通過這個真實的url下載到本地。其中用到的下載類DownloadFile的程式碼如下：

#!/usr/bin/python3
# -*- coding:utf-8 -*-

import os
import sys
import time
from urllib import request

class DownloadFile(object):


    def __init__(self):
        self.start_time = time.time()

    '''
    urllib.urlretrieve 的回撥函式：
    def callbackfunc(blocknum, blocksize, totalsize):
        @blocknum:  已經下載的資料塊
        @blocksize: 資料塊的大小
        @totalsize: 遠端檔案的大小
    '''
    def __Schedule(self, blocknum, blocksize, totalsize):
        speed = (blocknum * blocksize) / (time.time() -self.start_time)
        # speed_str = " Speed: %.2f" % speed
        speed_str = " Speed: %s" % self.__format_size(speed)
        recv_size = blocknum * blocksize
     
        
        # 設定下載進度條
        f = sys.stdout
        pervent = recv_size / totalsize
        percent_str = "%.2f%%" % (pervent * 100)
        n = round(pervent * 50)
        s = ('█' * n).ljust(50, '-')
        f.write(percent_str.ljust(8, ' ') + '█' + s + '█' + speed_str)
        f.flush()
        f.write('\r')
    
    # 位元組bytes轉化K\M\G
    def __format_size(self, bytes):
        try:
            bytes = float(bytes)
            kb = bytes / 1024
        except:
            print("傳入的位元組格式不對")
            return "Error"
        if kb >= 1024:
            M = kb / 1024
            if M >= 1024:
                G = M / 1024
                return "%.3fG" % (G)
            else:
                return "%.3fM" % (M)
        else:
            return "%.3fK" % (kb)
    
    def __downloadFile(self, url, folder, fileName):
        
        print("正在下載: %s" % fileName)
        print(url)
        request.urlretrieve(url, folder + "\\" + fileName, self.__Schedule)

    def download(self, url, title, author):
       
        curFolder = 'H:\\py\\downloads\\' + author

        if not os.path.exists(curFolder):
            try:
                os.makedirs(curFolder)
            except Exception as ex:
                print(ex)
        else:
            try:
                # 下載檔案
                self.__downloadFile(url, curFolder, title + '.mp4')
            except Exception as ex:
                print(ex)

全文完結，後續實現用其它框架來爬蟲新聞資源。敬請期待~

參考資料：

Python3從零開始爬取今日頭條的新聞【五、解析頭條視訊真實播放地址並自動下載】

本文目錄：1.目標2.實現參考資料： 1.目標本文目標是自動解析頭條的視訊新聞，通過第三方解析網站得到其真實的下載地址並自動下載到本地 *至於如何通過py自動解析、檢視大咖個人中心的視訊頁籤內容

Python3從零開始爬取今日頭條的新聞【一、開發環境搭建】

首先，安裝好我們爬網所需的開發環境，我的開發環境如下： win7 x64中文版本系列演示過程所用到的python環境以及第三方庫： python 3.6.5 Anaconda預安裝 sele

Python解析頭條視訊真實播放地址並自動下載

我們檢視央視網新聞這個大V的主頁本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，

用python3從網頁中爬取圖片下載到本地

前提：使用的python是python3版本，2和3還是有很大的區別的。 1、先找一個有圖片的網頁（這裡找到的是新浪：http://photo.sina.com.cn）。右鍵，選擇最後一個檢查，就可以看到網頁的原始碼。然後是圖片的都是在標籤（）中。 urllib

從零開始學Xamarin.Forms(二) 環境搭建、創建項目

官方 log targe 4.4 pad jdk 新建文件夾 ini pos 一、環境搭建 Windows下環境搭建： 1.下載並安裝jdk 、Android SDK和NDK。當然還須要 VS2013 update 2（VS2010、VS2012均可）以上

從零開始學 Web 之 Ajax（五）同步異步請求，數據格式

遊記 document 空閑 name center 20px 實現 resp 也會大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之

從零開始學習比特幣（五）--P2P網路建立的流程之套接字的讀取和傳送

寫在前面：本篇文章接續從零開始學習比特幣開發（四）–網路初始化，載入區塊鏈和錢包，匯入區塊啟動節點從零開始學習區塊鏈技術（三）-接入比特幣網路的關鍵步驟解析、建立比特幣錢包，以及重要rpc指令從零開始學習區塊鏈技術（二）–如何接入比特幣網路以及其原理分析從零開始學習

從零開始的node.js-1 基礎格式、執行、打斷、路由、讀取檔案。

//打算學下後端，可是不知道選php還是node，想了想反正不打算精通只是不想和後端交流過於麻煩而已，所以還是學node。js吧，不知道能不能學會 //1 安裝node.js 不說啥了 2. 在js裡寫出如下程式碼開啟命令列輸入node xxx.js&

從零開始學 Web 之 CSS3（五）transform

transform transform 字面上就是變形，改變的意思。在CSS3中transform主要包括以下幾種：移動 translate，縮放scale，旋轉rotate，翻轉skew，改變旋轉軸心等。 1、元素的移動：translate 作用：使用transform實現元素的移動語法： /*使用t

從零開始學 Web 之 Ajax（五）同步非同步請求，資料格式

一、同步請求與非同步請求同步請求：在使用者進行請求傳送之後，瀏覽器會一直等待伺服器的資料返回，如果網路延遲比較高，瀏覽器就一直卡在當前介面，直到伺服器返回資料才可進行其他操作。非同步請求：在使用者進行請求傳送之後，瀏覽器可以自由操作頁面中其他的元素，當伺服器放回資料的時候，才觸發相應事件，對返回的資料

從零開始學 Web 之 CSS（五）可見性、內容移除、精靈圖、屬性選擇器、滑動門

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！一、CSS可見性

從零開始學 Web 之 DOM（五）元素的建立

大家好，這裡是「從零開始學 Web 系列教程」，並在下列地址同步更新...... +------------------------------------------------------------ github：https://github.com/Daotin/Web 微信公眾號：Web前端之

從零開始學 Web 之 jQuery（五）操作元素其他屬性，為元素繫結事件

一、操作元素的寬和高 1、方法一元素.css("width"); 元素.css("height"); 最後得到的是字串型別的，比如 200px。如果我們在設定為原來寬高2倍的時候，就要先把獲取的寬高轉換成數字型別，再乘以2，這樣操作比較麻煩，有沒有簡單的方法呢？ 2、方法二元素.width(屬性

從零開始學 Web 之 JavaScript（五）面向物件

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！一、面向物件 1、

從零開始學 Web 之 ES6（五）ES6基礎語法三

一、Generator Generator 函式是 ES6 提供的一種非同步程式設計解決方案。 Generator 函式有多種理解角度。語法上，首先可以把它理解成，Generator 函式是一個狀態機，封裝了多個內部狀態。執行 Generator 函式會返回一個遍歷器物件，也就是說，Generator

[Wondgirl]從零開始學React Native之Text(五)

像不像iOS的富文字 <Text style={{color:'#00F'}}> 我的文字 </Text>

Vue+ElementUI從零開始搭建自己的網站（三、元件間的通訊）

前面討論了環境的搭建和導航頁面以及路由的配置，今天我們討論下如何開發一個擁有表單和表格功能的頁面。先上開發完的效果圖：可以看出頁面非常的簡單，其中上半部分是表單搜尋和查詢，下半部分是用於展示資料的表格。如果按照傳統的開發思路，其實非常簡單，只要用兩個div，第一個d

從零開始實現放置遊戲（十五）——實現戰鬥掛機（6）線上打怪練級

　　本章初步實現遊戲的核心功能——戰鬥邏輯。　　戰鬥系統牽涉的範圍非常廣，比如前期人物的屬性、怪物的配置等，都是在為戰鬥做鋪墊。　　戰鬥中，人物可以施放魔法、技能，需要技能系統支援。　　戰鬥勝利後，進行經驗、掉落結算。又需要揹包、裝備系統支援。裝備系統又需要隨機詞綴附魔系統。　

Python爬蟲+ pyqt5(從零開始到爬取教務處新聞，課程表，成績)

前言：剛開始以為Python爬蟲很高深，其實，當你模仿其他人的程式碼，敲了一遍之後，你8成就可以理解Python的基本爬蟲了。無論是學習什麼事情，剛開始就要準備好利器工具，那樣我們才能開始我們的旅程。工欲善其事，必先利其器麻！Python的安裝:點選開啟連結我下載的是

Python3爬取今日頭條列表及詳情

以上是小白爬蟲記，高手請直接繞行。最近python那是相當的火，正好專案要用到爬蟲，爬取今日頭條的內容。作為一名伸手黨，自然想到了度娘，發現一大堆東西，各種嘗試，最後

Python3從零開始爬取今日頭條的新聞【五、解析頭條視訊真實播放地址並自動下載】

本文目錄：

1.目標

2.實現

參考資料：

相關推薦