1. 程式人生 > 程式設計 >Python下載的11種姿勢(小結)

Python下載的11種姿勢(小結)

1、使用requests

你可以使用requests模組從一個URL下載檔案。

考慮以下程式碼:

在這裡插入圖片描述

你只需使用requests模組的get方法獲取URL,並將結果儲存到一個名為“myfile”的變數中。然後,將這個變數的內容寫入檔案。

2、使用wget

在這裡插入圖片描述

你還可以使用Python的wget模組從一個URL下載檔案。你可以使用pip按以下命令安裝wget模組:

考慮以下程式碼,我們將使用它下載Python的logo影象。

在這裡插入圖片描述

在這段程式碼中,URL和路徑(影象將儲存在其中)被傳遞給wget模組的download方法。

3、下載重定向的檔案

在本節中,你將學習如何**使用requests從一個URL下載檔案,**該URL會被重定向到另一個帶有一個.pdf檔案的URL。該URL看起來如下:

在這裡插入圖片描述

要下載這個pdf檔案,請使用以下程式碼:

在這裡插入圖片描述

在這段程式碼中,我們第一步指定的是URL。然後,我們使用request模組的get方法來獲取該URL。在get方法中,我們將allow_redirects設定為True,這將允許URL中的重定向,並且重定向後的內容將被分配給變數myfile。

最後,我們開啟一個檔案來寫入獲取的內容。

4、分塊下載大檔案

考慮下面的程式碼:

在這裡插入圖片描述

首先,我們像以前一樣使用requests模組的get方法,但是這一次,我們將把stream屬性設定為True。

接著,我們在當前工作目錄中建立一個名為PythonBook.pdf的檔案,並開啟它進行寫入。

然後,我們指定每次要下載的塊大小**。我們已經將其設定為1024位元組,**接著遍歷每個塊,並在檔案中寫入這些塊,直到塊結束。

不漂亮嗎?不要擔心,稍後我們將顯示一個下載過程的進度條。

5、下載多個檔案(並行/批量下載)

要同時下載多個檔案,請匯入以下模組:

在這裡插入圖片描述

我們匯入了os和time模組來檢查下載檔案需要多少時間。ThreadPool模組允許你使用池執行多個執行緒或程序。

讓我們建立一個簡單的函式,將響應分塊傳送到一個檔案:

在這裡插入圖片描述

這個URL是一個二維陣列,它指定了你要下載的頁面的路徑和URL。

在這裡插入圖片描述

就像在前一節中所做的那樣,我們將這個**URL傳遞給requests.get。**最後,我們開啟檔案(URL中指定的路徑)並寫入頁面內容。

現在,我們可以分別為每個URL呼叫這個函式,我們也可以同時為所有URL呼叫這個函式。**讓我們在for迴圈中分別為每個URL呼叫這個函式,**注意計時器:

在這裡插入圖片描述

現在,使用以下程式碼行替換for迴圈:

在這裡插入圖片描述

執行該指令碼。

6、使用進度條進行下載

進度條是clint模組的一個UI元件。輸入以下命令來安裝clint模組:

在這裡插入圖片描述

考慮以下程式碼:

在這裡插入圖片描述

在這段程式碼中,我們首先匯入了requests模組,然後,我們從clint.textui匯入了進度元件。唯一的區別是**在for迴圈中。**在將內容寫入檔案時,我們使用了進度條模組的bar方法。

7、使用urllib下載網頁

在本節中,我們將使用urllib下載一個網頁。

urllib庫是Python的標準庫,因此你不需要安裝它。

以下程式碼行可以輕鬆地下載一個網頁:

在這裡插入圖片描述

在這裡指定你想將檔案儲存為什麼以及你想將它儲存在哪裡的URL。

在這裡插入圖片描述

在這段程式碼中,我們使用了urlretrieve方法並傳遞了檔案的URL,以及儲存檔案的路徑。副檔名將是.html。

8、通過代理下載

如果你需要使用代理下載你的檔案,你可以使用urllib模組的ProxyHandler。請看以下程式碼:

在這裡插入圖片描述

在這段程式碼中,我們建立了代理物件,**並通過呼叫urllib的build_opener方法來開啟該代理,**並傳入該代理物件。然後,我們建立請求來獲取頁面。

此外,你還可以按照官方文件的介紹來使用requests模組:

在這裡插入圖片描述

你只需要**匯入requests模組並建立你的代理物件。**然後,你就可以獲取檔案了。

9、使用urllib3

urllib3是urllib模組的改進版本。你可以使用pip下載並安裝它:

在這裡插入圖片描述

我們將通過使用urllib3來獲取一個網頁並將它儲存在一個文字檔案中。

匯入以下模組:

在這裡插入圖片描述

在處理檔案時,我們使用了shutil模組。

現在,我們像這樣來初始化URL字串變數:

在這裡插入圖片描述

然後,我們使用了urllib3的PoolManager ,它會跟蹤必要的連線池。

在這裡插入圖片描述

建立一個檔案:

在這裡插入圖片描述

最後,我們傳送一個GET請求來獲取該URL並開啟一個檔案,接著將響應寫入該檔案:

在這裡插入圖片描述

10、使用Boto3從S3下載檔案

要從Amazon S3下載檔案,你可以使用Python boto3模組。

在開始之前,你需要使用pip安裝awscli模組:

在這裡插入圖片描述

對於AWS配置,請執行以下命令:

在這裡插入圖片描述

現在,按以下命令輸入你的詳細資訊:

在這裡插入圖片描述

要從Amazon S3下載檔案,你需要匯入boto3和botocore。Boto3是一個Amazon SDK**,它允許Python訪問Amazon web服務(如S3)。**Botocore提供了與Amazon web服務進行互動的命令列服務。

Botocore自帶了awscli。要安裝boto3,請執行以下命令:

在這裡插入圖片描述

現在,匯入這兩個模組:

在這裡插入圖片描述

在從Amazon下載檔案時,我們需要三個引數:

Bucket名稱你需要下載的檔名稱檔案下載之後的名稱

初始化變數:

在這裡插入圖片描述

現在,**我們初始化一個變數來使用會話的資源。**為此,我們將呼叫boto3的resource()方法並傳入服務,即s3:

在這裡插入圖片描述

最後,使用download_file方法下載檔案並傳入變數:

在這裡插入圖片描述

11、使用asyncio

asyncio模組**主要用於處理系統事件。**它圍繞一個事件迴圈進行工作,該事件迴圈會等待事件發生,然後對該事件作出反應。這個反應可以是呼叫另一個函式。這個過程稱為事件處理。asyncio模組使用協同程式進行事件處理。

要使用asyncio事件處理和協同功能,我們將匯入asyncio模組:

在這裡插入圖片描述

現在,像這樣定義asyncio協同方法:

在這裡插入圖片描述

關鍵字async表示這是一個原生asyncio協同程式。在協同程式的內部,我們有一個await關鍵字,它會返回一個特定的值。我們也可以使用return關鍵字。

現在,讓我們使用協同建立一段程式碼來從網站下載一個檔案:

在這裡插入圖片描述

在這段程式碼中,我們建立了一個非同步協同函式,它會下載我們的檔案並返回一條訊息。

然後,我們使用另一個非同步協同程式呼叫main_func,**它會等待URL並將所有URL組成一個佇列。**asyncio的wait函式會等待協同程式完成。

現在,為了啟動協同程式,我們必須使用asyncio的get_event_loop()方法將協同程式放入事件迴圈中,最後,我們使用asyncio的run_until_complete()方法執行該事件迴圈。

到此這篇關於Python下載的11種姿勢(小結)的文章就介紹到這了,更多相關Python下載方法內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!