爬取陽光寬頻網的視訊

阿新 • • 發佈：2019-01-26

import requests
from lxml import etree
import json
import os

from selenium import webdriver
import time

class LoadVideos(object):
    def __init__(self):
        self.index_url = 'http://www.365yg.com/'
        self.json_url = 'http://www.365yg.com/api/pc/feed/?category=video&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1654A545ACFD9C&cp=5A4A0F0D29FC7E1&_signature=' 

        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}
        self.webdriver = webdriver.PhantomJS('/Users/zhangninglei/Downloads/phantomjs-2.1.1-macosx/bin/phantomjs')
        self.video_list = {}

    def get_video_info 
(self):
        r = requests.get(url=self.json_url,headers=self.headers)
        obj = json.loads(r.text)

        for video in obj['data']:
            video_name = video['video_id']
            video_url = self.index_url+ video['source_url']
            self.video_list[video_name]=video_url


    def 
 load_video_data(self):

        for i in self.video_list:
            url = self.video_list[i]
            #通過瀏覽器傳送請求
            self.webdriver.get(url)
            #休眠一下，載入資料
            time.sleep(5)

            #得到網頁原始碼
            html = self.webdriver.page_source

            #解析頁面，並下載
            html_tree = etree.HTML(html)
            video_src = html_tree.xpath('//video[@class="vjs-tech"]/source/@src')[0]
            print('開始載入'+i+'的資料！')
            r = requests.get(url = video_src,headers=self.headers)
            print(i + '的資料載入完畢！')
            #儲存到本地
            print('將'+i+'儲存到本地！')
            save_video(filename=i,data=r.content)
            print(i+'已成功儲存！')

def save_video(filename,data):
    filepath = os.path.join(os.getcwd()+'/video/'+filename+'.mp4')
    with open(filepath,'wb') as f1:
        f1.write(data)

def main():
    loadvideo = LoadVideos()
    loadvideo.get_video_info()
    loadvideo.load_video_data()

if __name__ == '__main__':
    main()

爬取陽光寬頻網的視訊

import requests from lxml import etree import json import os from selenium import webdriver import time class LoadVideos(object):

Python-爬取校花網視訊(單執行緒和多執行緒版本)

一、參考文章 python爬蟲爬取校花網視訊，單執行緒爬取爬蟲----爬取校花網視訊，包含多執行緒版本上述兩篇文章都是對校花網視訊的爬取，由於時間相隔很久了，校花網上的一些視訊已經不存在了，因此上

Python爬蟲訓練：爬取酷燃網視訊資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理專案目標爬取酷燃網視訊資料 https://krcom.cn/ 環境 Python3.6 pycharm 爬蟲程式碼 import pprint

爬取攝圖網裡的音樂和視訊攝圖網模擬登陸

#首席那安裝selinium from selenium import webdriver import time from lxml import etree import json #新增顯示等待 from selenium.webdriver.suppor

Node.js爬蟲-爬取慕課網課程信息

reac 分享 function apt txt sta eject 賦值 find 第一次學習Node.js爬蟲，所以這時一個簡單的爬蟲，Node.js的好處就是可以並發的執行這個爬蟲主要就是獲取慕課網的課程信息，並把獲得的信息存儲到一個文件中，其中要用到cheerio

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

Httpclient爬取優酷網

num 內容 htm clas ets author download auth isod 參考：http://www.cnblogs.com/lchzls/p/6277210.html /httpClient/src/main/java/com/louis/youku

05 爬取華為官網VMALL的手機評論

wid gin lec image json數據包線程 size 使用 ges 項目地址：copywang/spiders_collection 實現功能爬取手機界面的所有手機評論列表存儲到MONGODB 步驟獲取首頁的手機列表，並獲取各個手機標題和詳情頁的U

我的第一個Scrapy 程序 - 爬取當當網信息

ref http ide ces passwd lds url ext != 前面已經安裝了Scrapy，下面來實現第一個測試程序。概述 Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫

4-15 爬取新浪網

xlsx size text num mos das rip bs4 page import requests 3 from bs4 import BeautifulSoup 4 from datetime import datetime 5 import re 6

爬取起點中文網小說介紹信息

OS tex 2.0 user agent lee idp url pri 字數的信息（word）沒有得到缺失 import xlwt import requests from lxml import etree import time all_info_list=[]

scrapy案例:爬取翼蜂網絡新聞列表和詳情頁面

model rap name lB htm nod meta http AR # -*- coding: utf-8 -*- import scrapy from Demo.items import DemoItem class AbcSpider(scrapy.Sp

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Python什麽是生產者消費者模式某些模塊負責生產數據，這些數據由其他模塊來負責處理（此處的模塊可能是：函數、線程、進程等）。產生數據的模塊稱為生產者，而處理數據的模塊稱為消費者。在生產者與消費者之間的緩沖區稱之為倉庫。生產者負責往倉庫運輸商品，而消費者負責從倉庫裏取出商品，這就構成了生產者消費者模式。生

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

爬取陽光問政平臺

鏈接 import ML ont con spa sta http type 創建項目 scrapy startproject dongguan items.py import scrapy class DongguanItem(scrapy.Item): #

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

content 數據持久化 lag works wid spa 代碼職位要求思路：1.獲取拉勾網搜索到職位的頁數　　 2.調用接口獲取職位id 　　 3.根據職位id訪問頁面，匹配出關鍵字　　 url訪問采用unirest，由於拉鉤反爬蟲，短時間內頻繁訪問會被

selelinum+PhantomJS 爬取拉鉤網職位

one while 對象 bili exe 5.0 設置 expect money 使用selenium+PhantomJS爬取拉鉤網職位信息，保存在csv文件至本地磁盤拉鉤網的職位頁面，點擊下一頁，職位信息加載，但是瀏覽器的url的不變，說明數據不是發送get請求得到的

python3爬蟲爬取煎蛋網妹紙圖片

port 商業技術分享爬取其中 lar c函數 base 技術其實之前實現過這個功能，是使用selenium模擬瀏覽器頁面點擊來完成的，但是效率實際上相對來說較低。本次以解密參數來完成爬取的過程。首先打開煎蛋網http://jandan.net/ooxx，查看網頁

第三篇 - 爬取豆瓣電影網

zip def str 一個 eva 電影 pycha 系統瀏覽器環境：python 3.6 pycharm 模塊：requests,json 1 import requests 2 import json 3 4 #請求頭 5 headers = {

爬取陽光寬頻網的視訊

相關推薦