【Python爬蟲】使用urllib.request下載已知連結的網路資源

阿新 • • 發佈：2018-12-26

如果有這樣一個場景，我們的EXCEL某一列記錄了好多（圖片、視訊、音訊）連結A，另外一列記錄了連結名稱B，現在我們想要自動下載這些連結的檔案，我們應該怎樣處理？
1.迴圈去excel取值,將A和B存入到一個二維列表中
2.根據連結字尾不同情況（.jpg,.mp4,mp3等）用urllib.request去下載內容

具體程式碼如下：

'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
#作者：cacho_37967865
#部落格：https://blog.csdn.net/sinat_37967865
#檔案：getFile.py
#日期：2018-11-24
#備註：獲取excel檔案中下載資訊存入到列表，然後迴圈去取資料下載檔案（mp4,mp3,jpg,pdf等）
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''

import xlrd
import urllib.request
import os

def get_excel_cell(xlsFile,num,nrows):
    data = xlrd.open_workbook(xlsFile)
    table = data.sheets()[0]
    cellData = []

    # 獲取指定列資料
    for i in range(num, nrows):              # 控制行數（開始i=num處理），（結束i=nrows不處理）
        row = []
        className = table.cell_value(i, 3)   # 第4列課程名稱
        row.append(className)
        classUrl = table.cell_value(i, 4)    # 第5列課程下載路徑
        row.append(classUrl)

        cellData.append(row)
    return cellData


def get_video(folder,url,fileName,fileType):
    os.chdir(folder)                           # 切換到將要存放檔案的目錄
    file = open(fileName + fileType, "wb")     # 開啟檔案
    try:
        req = urllib.request.Request(url=url)
        req.add_header("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36")
        video = urllib.request.urlopen(req, timeout=40)
        mp4 = video.read()                     # 將檔案轉換為bytes格式
        file.write(mp4)                        # 檔案寫入
        print(type(file),type(req),type(video),type(mp4))
    except Exception as f:
        print(str(f))
    file.close()


if __name__ == '__main__':
    videoInfo = get_excel_cell('F:\PythonProject\Pacong\docs\yuyus185.xls',182,183)
    for i in range(len(videoInfo)):
        fileName = videoInfo[i][0]
        url = videoInfo[i][1]
        fileType = url[-4:]          # 擷取最後4位，可以判斷內容的型別（.jpg,.mp4,mp3等）
        print(fileName,fileType,url)
        get_video('F:\SoftwareTest',url,fileName,fileType)

【Python爬蟲】使用urllib.request下載已知連結的網路資源

如果有這樣一個場景，我們的EXCEL某一列記錄了好多（圖片、視訊、音訊）連結A，另外一列記錄了連結名稱B，現在我們想要自動下載這些連結的檔案，我們應該怎樣處理？ 1.迴圈去excel取值,將A和B存入到一個二維列表中 2.根據連結字尾不同情況（.jpg,.mp4,mp3等）用urllib.req

【Python爬蟲】下載微信公眾號圖片

大家用爬蟲下載圖片時肯定遇到過https://demo?wx_fmt=jpeg連結的圖片，常見的就是微信公眾號的圖片。遇到連結圖片用普通的方式是無法爬取下來的，我們可以用urllib.request進

【Python3 爬蟲】04_urllib.request.urlretrieve

ont utf-8 html HA 觸發 request 效果數量 class urllib模塊提供的urlretrieve()函數,urlretrieve()方法直接將遠程的數據下載到本地 urllib語法參數url:傳入的網址，網址必須得是個字符串參數filen

【Python爬蟲】Requests庫的安裝

comm AS imp pypi pan span douban OS host 1.按照普通的pip不能行，說find不能有位小傑控的大牛說了一句：換一個國內的更新源吧， pip install requests -i http://pypi.douban.com/si

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

【Python爬蟲】Python安裝

pip 是一個現代的，通用的 Python 包管理工具。提供了對 Python 包的查詢、下載、安裝、解除安裝的功能。 IDLE 是一個Python Shell，一個純 Python下自帶的簡潔的整合開發環境(IDE)。IDLE是跟Python一起安裝的，不過

【python 爬蟲】BeautifulSoup4 庫的介紹使用

有部分內容為北理嵩天老師的爬蟲教程的個人學習筆記，結合其他部落格整理學習。前言：資訊標記形式 html是將聲音、影象、音訊嵌入到文字中，是Internet上的主要資訊組織、傳遞形式，通過預定義的標籤< >…</ >將不同型別的資訊組織起來。國際上標準的資訊標

Python爬蟲基礎——urllib.request

#-*- coding:UTF-8 -*- #Author Chen Da import urllib.request import random # 所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來； # User-Agent是爬蟲與反爬蟲的第一步，養成

Python爬蟲（urllib.request和BeautifulSoup）

學習urllib.request和beautifulsoup，並從dribbble和behance上爬取了一些圖片，記錄一下。一、urllib.request 1. url的構造構造請求的url遇到的主要問題是如何翻頁的問題，dribbble網站是下拉到底自動載入下

【Python爬蟲】微信公眾號歷史文章和文章評論API分析

上一篇文章爬取微信公眾號文章資訊準備工作介紹了微信公眾號歷史文章和文章評論API的組成情況，歷史文章API格式：https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

【python 爬蟲】Mac環境下selenium、ChromeDriver的安裝

1.安裝Selenium庫在終端輸入下面指令： pip3 install selenium 2.安裝ChromeDriver 這個安裝有點麻煩，我參考一個bloghttps://cuiqingcai.com/5135.html的。Mac的rootless機制我弄了很

【python+selenium】pycharm 的下載安裝和基本使用

從本文開始陸續介紹一些中級的技能，本篇文章介紹，在Python開發過程中，比較流行，很優秀的一款IDE工具-PyCharm，這裡關於它的介紹就一句話，它就相當於Java開發中的Eclipse軟體一樣。有些人說，Eclipse上可以通過安裝外掛擴充套件來支援Python的程式碼編寫，雖然可以這樣，

【python爬蟲】動態載入頁面的解決辦法（以ins為例）

現在很多的web頁面使用ajax技術動態載入頁面。但對於爬蟲來說，目標資料很可能不在頁面HTML原始碼中（右鍵檢視網頁原始碼，通過F12查詢），針對靜態頁面的爬蟲不再滿足現在的需求。很多教程都推薦用Selenium和PhantomJS配合使用，實現網頁的渲染，得到網頁的全

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

【Python爬蟲】Requests 請求並讀寫、儲存到excel檔案中

爬取前程無憂職位資訊此次我們用簡單的爬蟲來展示如何把爬到提取出的資訊儲存的excel檔案中.（ps：首先你要安裝好模組openpyxl否則就點選右上角離開，百度搜素安裝.）選前程無憂的網頁作為案例是因為主編最近在看看工作的訊息，想想就順手寫了一個為方便尋找滿足自己要

【python爬蟲】關於403問題的反爬處理

今天在學習小甲魚的python爬蟲，遇到下面問題首先，貼上今天找到的一個技巧在python報錯之後，定位c：之前的那個語句基本上就是出錯的地方。 1.urllib.error.HTTPError: HTTP Error 403: Forbidden 這個問題是由於

【Python爬蟲】表弟用Python爬下今日頭條上萬美女照片，玩的不亦樂乎！

我們的學習爬蟲的動力是什麼？有人可能會說：如果我學好了，我可以找一個高薪的工作。有人可能會說：我學習程式設計希望能夠為社會做貢獻（手動滑稽）有人可能會說：為了妹子！ ..... 其實我們會發現妹子才是第一生產力呀！今天咱們就是爬取今日頭條，你要問我為

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

【python爬蟲】BeautifulSoup庫的選擇器select()方法

一般使用BeautififulSoup解析得到的Soup文件可以使用find_all()、find()、select() 方法定位所需要的元素。find_all()是獲得list列表、find()

【Python爬蟲】使用urllib.request下載已知連結的網路資源

相關推薦