Scrapy 框架抓取美拍視訊

阿新 • • 發佈：2019-01-22

抓取美拍的資料並不算是很難關鍵是他的視訊url的加密演算法是有點難搞。

開啟美拍的網址我們檢視一下原始碼，他的網頁載入方式跟其它的網站差不多，video_url也是在原始碼中，但是我們仔細看，諾就是下邊這一串，是人都能猜測這應該是是他的video_url的地址，但是經過某種加密或者編碼，根據我的經驗我猜是base64,自己有一套演算法在裡面新增一些隨機字串

我把我寫的程式碼貼下，有興趣的同法可以嘗試下：

items.py

class MeipaiItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    cut_url = scrapy.Field()
    create_time = scrapy.Field()
    video_url = scrapy.Field()
    title = scrapy.Field()
    author = scrapy.Field()

spider

# -*- coding, utf-8 -*-
import scrapy
import json
import base64
from Meipai.items import MeipaiItem
import logging


class MeipaiSpider(scrapy.Spider):
    name = 'meipai'
    allowed_domains = ['meipai.com']
    start_urls = ['http://www.meipai.com/']
    offset = 1
    MeiPai = [
        ('搞笑', '13'),
        ('明星', '16'),
        ('高顏值','474'),
        ('舞蹈', '5872239354896137479'),
        ('精選', '488'),
        ('音樂', '5871155236525660080'),
        ('美食', '5870490265939297486'),
        ('時尚', '27'),
        ('美狀', '6161763227134314911'),
        ('吃秀', '5871963671268989887'),
        ('寶寶', '5864549574576746574'),
        ('創意', '5875185672678760586'),
        ('遊戲', '5879621667768487138'),
        ('體育', '5872639793429995335'),
        ('娛樂','6204189999771523532'),
    ]
    def parse(self, response):


        for channel,id in self.MeiPai:
            JsonUrl = 'http://www.meipai.com/topics/hot_timeline?page=1&count=24&tid={}'.format(id)
            yield scrapy.Request(url=JsonUrl,callback=self.parse_item)
       

    def system(self,string_num):
        return str(int(string_num.upper(), 16))


    def parse_item(self,response):
        item = MeipaiItem()
        OriginalHtml = json.loads(response.body.decode('utf-8'))
        NowHtml = OriginalHtml.get('medias')
        for NowData in NowHtml:
            # print(NowData)
            CutPicture = NowData.get('cover_pic')
            item['cut_url'] = CutPicture
            CreateTime = NowData.get('created_at')
            item['create_time'] = CreateTime
            Title = NowData.get('caption')
            if Title:
                item['title'] = Title
            else:
                return
            User = NowData.get('user').get('screen_name')
            if User:
                item['author'] = User
            else:
                return
            try:
                EncryptionVideoUrl = NowData.get('video')
                Num = self.system(EncryptionVideoUrl[:4][::-1])
                StartNum = Num[0]
                StartCount = Num[1]
                EndNum = Num[2]
                EndCount = Num[3]
                AddendNum = -(int(EndCount) + int(EndNum))
                HeaderNUm = int(StartCount) + int(StartNum) + int(4)
                TrueMindPart = EncryptionVideoUrl[HeaderNUm:AddendNum]
                TrueStartUrl = EncryptionVideoUrl[4:4 + int(StartNum)]
                TrueEndtUrl = EncryptionVideoUrl[(-int(EndNum)):]
                DealWithFinalUrl = TrueStartUrl + TrueMindPart + str(TrueEndtUrl)
                # Mp4Url = base64.b64decode(DealWithFinalUrl)
                FinalMp4UrlData = (str(base64.b64decode(DealWithFinalUrl), 'utf-8'))
                item['video_url'] = FinalMp4UrlData
            except Exception as e:
                logging.info(e)
                return


            # print(CutPicture,CreateTime,User,Title,Mp4Url)
            if not item['video_url']:
                return
            yield item

piplines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
import logging

class MeipaiPipeline(object):

    def __init__(self):
        self.name = open('data.json','w')


    def process_item(self, item, spider):
        content = json.dumps(dict(item)) + '\n'
        logging.info(type(content))
        self.name.write(content.encode('utf-8').decode('unicode-escape'))
        return item

    def close_item(self,spider):
        self.name.close()

我們可以看下日誌資訊，視訊的url，現在是我們常見的MP4格式哈，也是可以在瀏覽器開啟的，可以請求的。

我們隨便找一個拿到瀏覽器，是沒有問題的：

然後我們這些資料的處理方式，我們可以儲存到本地，也可以存放資料庫，感興趣的夥伴可以吧視訊下載下來，我這裡僅僅是以檔案的格式儲存到了本地：

Scrapy 框架抓取美拍視訊

抓取美拍的資料並不算是很難關鍵是他的視訊url的加密演算法是有點難搞。開啟美拍的網址我們檢視一下原始碼，他的網頁載入方式跟其它的網站差不多，video_url也是在原始碼中，但是我們仔細看，諾就是下邊這一串，是人都能猜測這應該是是他的video_url的地址，但是經過某

python爬蟲之利用scrapy框架抓取新浪天氣資料

scrapy中文官方文件：點選開啟連結Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試，Scrapy吸引人的地方在於它是一個框架，任何人都可以根據

scrapy-splash抓取動態數據例子八

ear .config war rep ont code port 動態數據 shm 一、介紹　　　　本例子用scrapy-splash抓取界面網站給定關鍵字抓取咨詢信息。　　　　給定關鍵字：個性化；融合；電視　　　　抓取信息內如下：　　　　　　1、資訊標題

scrapy-splash抓取動態數據例子十一

tel ems 網站 tput findall spi 來源標題 end 　　一、介紹　　　　本例子用scrapy-splash抓取活動樹網站給定關鍵字抓取活動信息。　　　　給定關鍵字：數字；融合；電視　　　　抓取信息內如下：　　　　　　1、資訊標題　

利用 pyspider 框架抓取貓途鷹酒店信息

tasks 啟動 font oca star 一鍵 resp att blank 　　利用框架 pyspider 能實現快速抓取網頁信息，而且代碼簡潔，抓取速度也不錯。　　環境：macOS；Python 版本：Python3。　　1.首先，安裝 pyspider 框架，

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

使用scrapy框架爬取蜂鳥論壇的攝影圖片並下載到本地

utf 賦值 col 異常處理創建文件夾 clas watermark follow ret 目標網站：http://bbs.fengniao.com/使用框架：scrapy 因為有很多模塊的方法都還不是很熟悉，所有本次爬蟲有很多代碼都用得比較笨，希望各位讀者能給處意見

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

記錄一次python抓取網頁下載視訊

最近看了電影狂暴巨獸，連結是那種不固定的http連結，有可能隨時就打不開了，然後想下載下來留著，但是網頁不提供下載，所以就自己抓取了相關視訊，然後下載。廢話不多說，直接上乾貨。用fiddle抓取主要的視訊。下圖就是抓取時候產生的相關資訊。逐條進行分析，然後找到電影的包的地址。 http

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

Android 仿抖音仿美拍視訊播放列表

首先實現方式是 1.RecyclerView 2.ViewPager 我這裡實現的方式是用的RecyclerView，歡迎大家共同探討

簡單四步抓取騰訊視訊MP4檔案

1. 獲取視訊播放頁地址，如：https://v.qq.com/x/page/j0329yq5lu0.html 2. 視訊正片開播後，在H5播放器的右鍵選單中選擇“複製除錯資訊”。注意，一定要是H5播放器！不是Flash播放器！複製出來的資訊如下： {"pid":"5ec03277ec8

scrapy框架爬取虎撲論壇球隊新聞

用python爬蟲scrapy框架爬取虎撲論壇的30支球隊新聞 Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及

使用pyspider框架抓取貓途鷹旅遊資訊

這裡通過pyspider框架可以直接:pip3 install pyspider 下載框架 pyspider all 執行可以看到 run 0.0.0.0:5000 直接在瀏覽器輸入localhost:5000 進入建立新專案 #!/usr/bin/env pyth

使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫

使用scrapy框架爬取貓眼電影爬取全部的頁數 import scrapy,re from jobmaoyan.items import JobmaoyanItem class MaoyanSpider(scrapy.Spider): name = '

scrapy框架爬取微博之spider檔案

# -*- coding: utf-8 -*- import scrapy from scrapy.settings import default_settings import json from ..items import WeiboItem import

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

scrapy實戰：scrapy-splash抓取動態資料

scrapy實戰：scrapy-splash抓取動態資料 docker安裝拉取scrapinghub/splash映象啟動Splash 安裝 scrapy-splash 新建taobao spider專案 settings.py

Scrapy 框架抓取美拍視訊

相關推薦